近日,中国科学院北京基因组研究所生命与健康大数据中心团队题为“Database Resources of the BIG Data Center in 2018”的研究论文在国际学术期刊Nucleic Acids Research在线发表。这是继去年首次在该期刊以中心为模式发布我国生命组学数据资源建设成果“The BIG Data Center: from deposition to integration to translation”以来的又一阶段性重要进展,标志着我国建设综合型生物信息资源库进一步获得国际同行认可。
生命与健康大数据中心面向国家大数据发展战略,承担着建成多层次生物组学数据资源系统、建设组学大数据汇交共享平台并建立多组学生物大数据资源体系的重要任务。生命与健康大数据中心在原有多组学资源库基础上,添加建立了四个新库,包括生物信息工具代码库(Biological Tool Codes,BioCode),生物项目数据库(Biological Project Library,BioProject),生物样本数据库(Biological Sample Library,BioSample),内参基因知识库(Internal Control Genes,ICG)。同时,更新了原有的多个数据库,包括原始测序数据归档库(Genome Sequence Archive,GSA),基因表达数据库(Gene Expression Nebulas,GEN),基因组变异数据库(Genome Variation Map,GVM),表观基因组数据库(Methylation Bank,MethBank),生命科学维基知识库(Science Wikis)。此外,推出了三个特色网络服务,即跨库检索服务BIG Search,统一认证与单点登录服务BIG SSO,生物数据提交服务Gsub。其中,BIG Search不仅可对大数据中心内部数据库进行多库检索,还实现了多单位的跨库检索,包括北京大学(LncRNADisease)、天津大学(DoriC,DEG)、华中科技大学(AnimalTFDB,dbPAF,lncRNASNP,PLMD)的多个重要数据库。
生命与健康大数据中心章张研究员、赵文明高级工程师、肖景发研究员、鲍一明研究员为本文共同通讯作者。该研究得到中国科学院战略性先导科技专项、中国科学院国际大科学计划、国家863计划、国家973计划、国家自然科学基金等项目的资助。
论文链接
生命与健康大数据中心核心数据资源