北京基因组研究所(国家生物信息中心)基因组数据库取得进展
北京基因组所(国家生物信息中心)针对我国基因组数据“存管用”的实际需求,几年来,共建立了55个数据库,涉及衰老、疾病、调控和生物多样性等多个前沿领域,初步形成了我国生物数据安全汇交管理和多组学数据平台的国家中心数据资源体系。基因组序列和注释是基因组相关研究的重要资源,中国作为世界上生物多样性最丰富的国家之一,在过去几十年中,已经对大量重要国家战略资源物种的基因组进行测序和组装。为解决科研人员汇交数据过程中遇到的难题,满足国内外用户迅速增长的基因组数据汇交、管理和共享需求,北京基因组所开发了基因组数据库Genome Warehouse(GWH)。
GWH是一个存储各物种基因组组装数据的公共资源库,为基因组数据汇交、存储、发布和共享提供一系列web服务。GWH接受具有不同组装水平的全基因组和部分基因组(叶绿体、线粒体和质粒等)序列,以及对已有基因组数据的更新。除了基因组序列和注释外,GWH 还收集了生物项目、生物样本和基因组组装相关元数据的详细信息。为收集高质量的基因组序列和注释信息,GWH配备了统一和标准化的质量控制程序。除基本的浏览和搜索功能外,所有发布的基因组序列和注释均可以通过 JBrowse 进行可视化。
2021年6月24日,GWH相关研究成果以“Genome Warehouse: A Public Repository Housing Genome-scale Data”为题在线发表于学术期刊《基因组蛋白质组与生物信息学报》(Genomics, Proteomics & Bioinformatics)。
截至2021年7月1日,GWH 已收到19,769个汇交的基因组组装数据,涵盖1196个物种,并已发布其中的9353个。GWH发布的基因组数据已经在47个期刊的近百篇文章中发表。此外,GWH还与美国国家生物技术信息中心(National Center for Biotechnology Information, NCBI)建立了数据共享交换机制,提升了数据的国际影响力。
此项工作得到了中国科学院战略性先导科技专项、国家重点研发计划、中国科学院“十三五”信息化专项等项目的资助。
截至2021年7月1日GWH收录的基因组组装数据统计