国家基因组科学数据中心成立三周年

  201965日科技部、财政部联合发布了国家科技资源共享服务平台名单,其中依托中国科学院北京基因组研究所(国家生物信息中心)成立国家基因组科学数据中心(National Genomics Data CenterNGDC)。NGDC运行三年来,在主管部门、专家顾问的指导以及依托单位、共建单位与合作伙伴的支持下,面向我国人口健康和社会可持续发展的重大战略需求,取得系列重要进展和成果,为国家基因组科学数据的归档共享、安全管理和挖掘利用提供了重要支撑,入选国家“十三五”科技创新成就,荣获“全国科技系统抗击新冠肺炎疫情先进集体”。 

  建成多组学数据资源体系,跻身全球生物数据中心 

  生命健康大数据是关系到国家人口健康和生物安全的重要基础资源。针对我国组学数据存、管、用的实际需求,NGDC持续升级更新数据资源,从2019年初的15个数据模块扩展到目前的9大数据类型63个数据库,建成具有自主知识产权、安全可控、涵盖国家人类遗传资源和重要战略生物资源的多组学数据汇交、存储和共享体系,形成“数据—信息—知识”一体化资源系统。 

  20196月至今,NGDC在国际权威期刊《核酸研究》发表论文19篇,被该刊称为与美国国家生物技术信息中心(NCBI)、欧洲生物信息学研究所(EBI)并列的全球主要生物数据中心。 

   NGDC建成多组学数据资源体系 

  建设组学数据管理体系,保障数据安全 

  在生命科学研究领域,研究者获得的组学数据,均需上传到学界及学术期刊认可的专业数据库。由于国内缺乏生命健康大数据管理公共平台,我国学者大部分的组学数据都递交到国际核酸序列数据库联盟(INSDC)的三大数据库。为此,NGDC开发了国内首个组学原始数据汇交、存储、管理与共享平台——组学原始数据归档库(GSA),以及人类遗传资源组学原始数据归档库(GSA-Human)和多元数据归档库(OMIX),形成了组学原始数据管理体系(GSA Family),被Springer NatureElsevierWileyTaylor & FrancisCell等国际著名出版机构推荐为核酸数据存储和共享系统,获得了生命医学领域内主流期刊认可。目前GSA数据库体系已累计支撑科技人员在300种期刊发表研究论文1018篇,为解决长期以来我国生物组学数据汇交共享严重依赖国际数据库发挥了重要作用。 

  截至202265日,GSA数据库体系已接收国家重点研发计划、国家自然科学基金、中科院战略先导专项等资助的5423个科技项目数据汇交,来自563家单位2605个用户,汇交数据量从2019年同期的1.37 PB增长到13.99 PB。同时,GSA已完成与美国NCBI序列片段归档库(SRA)的元数据整合,实现了相关数据资源在NGDC网站的一站式检索与访问,极大提升了国内科研人员查询和获取数据的效率。 

  GSA数据库体系已汇交数据量达14PB 

  创建新冠病毒信息库,服务全球新冠防控 

  NGDC2020122日率先发布“2019新冠病毒信息库”(RCoV19)并持续更新,同时依托NGDC的基因组数据库(GWH)与NCBI初步建立了新冠基因组序列交换共享机制。截至202265日,RCoV19已收录新冠病毒序列1100多万条,为全球181个国家和地区178万余名访客提供数据服务,累计数据下载超54亿条,为中国—世卫组织新冠病毒联合溯源研究提供基因组及其变异数据分析支撑,在病毒溯源、监测、变异演化分析等方面发挥了重要作用,入选2020年度中国生物信息学十大进展、2021年度中科院科技创新亮点成果。202112NGDC被科技部授予“全国科技系统抗击新冠肺炎疫情先进集体”称号。 

   NGDC荣获“全国科技系统抗击新冠肺炎疫情先进集体”称号 

  开发生物信息分析平台,服务用户需求 

  根据生命科学领域用户需求,NGDC近期开发了生物信息在线分析平台(BIT),由数据可视化、序列比对、基因表达、表观遗传、基因组构成和新冠序列分析六个专题构成,部署了生物信息领域使用最多的BLAST在线工具。BIT将持续收集研究人员的分析需求和建议,集成更多专业化数据分析工具,不断优化分析流程和运行参数,为用户提供持续稳定、方便易用的在线数据分析、挖掘服务。 

   NGDC发布生物信息分析平台 

  拓展国内外合作交流,促进开放共享 

  NGDC积极开展与INSDC的合作交流,多次应邀参加INSDC年会并做报告,推进生物大数据国际合作共享,提升我国在该领域的影响力。通过跨库搜索引擎BIG Search,实现了NCBIEBI和国内10余家合作伙伴的数十个相关数据资源在NGDC网站的一站式检索与访问。目前针对数据交换和存储机制正在进一步推进与INSDC的合作。 

   20225月在线参加INSDC年会 

  为促进全球生物多样性与健康大数据开放共享,NGDC在国际生物科学联合会(IUBS)和“一带一路”国际科学组织联盟(ANSO)的支持下,联合巴基斯坦、俄罗斯、沙特、泰国4家学术机构发起成立了国际生物多样性与健康大数据联盟(BHBD)。目前BHBD成员单位达到28个,来自亚洲、欧洲、南美和非洲的12个国家,已合作发表论文10余篇,培训国外科技人员200多人次。NGDC与巴基斯坦NIH/真纳大学共同开展新冠病毒基因组测序及演化分析,并与巴西、俄罗斯、印度、南非相关科研机构联合申报获得金砖国家新冠病毒合作研究项目。 

   20197月在巴基斯坦举办国际生物多样性与健康大数据研讨会 

  加强团队建设,助力人才成长 

  在做好科研工作的同时,NGDC还不断加强人才队伍建设,通过会议交流、技能培训、实践锻炼等多种形式为青年人才成长提供广阔舞台。近三年来,NGDC培养晋升研究员1名、高级工程师3名、海外引进研究员1名,1人入选国家万人计划青年拔尖人才,3人入选中科院关键技术人才,1人荣获中科院青促会优秀会员,2人入选中科院青促会会员,1人入选北京市科技新星,研究生获国家奖学金9人次、北京市高校优秀毕业生2人次。NGDC人才团队建设取得丰硕成果,体现了“国家队、国家人”的良好风貌,为承担“国家事、国家责”奠定了坚实基础。 

   2021年度NGDC人才荣誉榜 

  作为国家生物信息中心(CNCB)的重要组成,NGDC持续贯彻落实国家科技发展战略和重大任务需求,提升数据安全、数据处理、存储和检索等核心技术,研发生物信息大数据关键核心算法和软件,增强服务能力和国际影响力,存好、管好、用好科学数据资源,建设支撑我国生命科学发展、国际知名的基因组科学数据中心 

 

附件下载: