国家生物信息中心发布基因序列数据库GenBase

基因的序列和注释信息(包括DNA、RNA和蛋白序列信息)是支撑基因功能研究的核心基础数据之一。伴随生物学的迅猛发展,在过去几十年中,我国生命科学领域产出了海量的基因序列数据。为满足我国科研人员在基因序列数据汇交、管理和共享过程中的现实需求,急需开发相应的基因序列数据库。

近日,国家生物信息中心发布基因序列数据库GenBase,并以“GenBase: A Nucleotide Sequence Database”为题在学术期刊Genomics Proteomics Bioinformatics 在线发表。

GenBase对标美国国家生物信息中心NCBI的GenBank数据库,是一个存储、管理、共享所有物种基因序列、注释信息及其编码蛋白质序列的公共资源库,可为基因序列数据的汇交、存储、发布和共享提供一系列Web服务。基于GenBase的提交系统,用户可根据详细的操作提示,按步骤提交包括提交者信息、参考文献、核苷酸序列、数据来源、数据特征等在内的重要的实体和元数据信息。GenBase严格把控数据质量,保障基因序列数据的准确性、完整性和可用性。GenBase系统遵循国际核酸序列共享联盟(International Nucleotide Sequence Database Collaboration,INSDC)的相关标准,立足中国,服务全球,可接收来自全球科研人员的数据提交。截止到2024年8月1日,GenBase共接收了来自197个单位、309个用户、2,650个批次的81,929条核酸序列及832,740条蛋白序列。其中,76,340 条核酸序列(93%) 与723,863 注释的蛋白序列(87%) 已释放,支撑了51篇论文的发表。特别地,GenBase接收了63,006条新冠病毒序列,其中的 59,913条已释放。同时,为保障全球基因序列数据的本地化管理,GenBase还整合了INSDC发布的约5.8亿条核酸和蛋白序列,提高国内科研人员查询和获取数据的效率。

国家生物信息中心卜琮凡、郑欣畅、赵学彤、徐添翼、白雪为该文共同第一作者,唐碧霞高级工程师和鲍一明研究员为该文共同通讯作者。本工作得到了中国科学院战略性先导专项、国家重点研发计划、“一带一路”国际科学组织联盟国际专题网络、中国科学院国际合作项目“国际基因组学数据共享体系研发”和国际生物多样性与健康大数据共享计划的项目支持。

论文链接

GenBase整体架构

附件下载: