2018年1月4日,国际核酸研究(Nucleic Acids Research)数据库专刊,连登四篇北京基因组所生命与健康大数据研究成果,包括生命组学数据资源建设成果(D14-20)、实时定量PCR内参基因知识库—ICG(Internal Control Genes;D121-126),甲基化数据库Methbank升级版(D288-295)以及基因组序列变异库—GVM(Genome Variation Map;D944-949)。四篇文章在核酸研究杂志的发表,标志着我国综合型生物信息资源库建设获得国际同行进一步认可。
自上世纪60年代以来,国际生物信息学家建立了一系列的数据库。特别是上世纪90年代,随着人类基因组计划的展开以及网络在全球普及,数据库数量和体量迅猛增加,形成了以NCBI、EBI、DDBJ等为代表的多个国际大数据中心。随着测序技术不断发展,我国已成为国际基因组数据最大产出国之一,但我国产出的组学数据绝大部分必须提交到国外数据库才能得到认可。据Database Commons数据库统计,我国数据库资源总数已位居世界第二,但大部分数据库没有进行长期运行维护,严重缺乏深度人工审编,数据库内容边缘化,最终结果是大量数据库资源质量不高,利用率低。
中科院北京基因组研究所面向国家大数据发展战略和科技创新战略,成立生命与健康大数据中心,建立生物大数据储存、整合与挖掘分析研究体系,构建的GSA(Genome Sequence Archive)数据库已开展原始组学数据存储与共享服务,并与国际接轨,存储的数据已支持Cell、Nature Communications、PNAS、Genome Research等杂志文章发表,建成我国生物大数据汇交共享平台,成为继NCBI、EBI、DDBJ之后第四个综合基因组权威数据库。同时,还建成了生物大数据多层次组学层面的数据资源体系,包括基因组归档数据库Genome Warehouse、基因组变异数据库Genome Variation Map、基因表达数据库Gene Expression Nebulas、甲基化数据库Methylation Bank、生物知识库Science Wikis,对我国科学研究和产业创新发展起到了重要支撑作用。
该研究得到国家重点研发计划、国家自然基金委、中国科学院战略性先导科技专项、中国科学院国际大科学计划等项目基金的资助。