北京基因组所(国家生物信息中心)发布同源基因数据库HGD

  同源基因是指来源于共同祖先的基因,常用于研究基因进化过程以及推断基因的潜在功能,在进化基因组研究以及系统生物学的功能研究中具有重要价值。

  近日,中国科学院北京基因组研究所(国家生物信息中心)国家基因组科学数据中心正式发布同源基因数据库(Homologous Gene Database,简称HGD),以“HGD: an integrated homologous gene database across multiple species”为题在国际学术期刊Nucleic Acids Research 在线发表。

  HGD整合了国际上多个同源资源数据集,解决了当前同源资源库在同源关系和同源基因标识方面存在差异、同源推断方法多样以及部分数据库同源基因鉴定结果不一致带来的困扰,为用户提供了一个综合、全面、简单、直观的同源基因数据集,方便用户使用。HGD提供物种间比较的同源基因功能注释图谱,包括基因功能数据(GO)以及性状、变异、表达相关的多组学注释数据,为跨物种同源基因功能比较研究提供统一面板。目前,HGD共收集了人、常见动植物以及微生物共37个物种,其中包括10种重要模式生物。数据库共收录112,383,644个同源对,其中16,909个同源基因关联表型数据,276,670个同源基因关联变异数据,398,573个同源基因关联表达数据,536,852个同源基因关联GO数据,用户可以通过物种名、基因ID、基因功能、蛋白ID、蛋白名以及相关注释等多种条件进行数据检索和筛选。

  HGD实现了国家基因组科学数据中心(NGDC)Genome Variation Map (GVM)、Gene Expression Nebulas (GEN)和GWAS Atlas多个数据资源库的信息关联与集成,切实发挥并体现了NGDC资源聚集的效果和优势,同时也弥补了我国在重要生物信息资源建设方面的空缺。

  中国科学院北京基因组研究所(国家生物信息中心)博士研究生段光亚及硕士研究生吴港澳为本文共同第一作者,唐碧霞工程师和赵文明正高级工程师为共同通讯作者。本工作得到中国科学院战略性先导科技专项、国家自然科学基金、国家重点研发计划等项目资助。

  论文链接

HGD数据库浏览、检索及数据展示

附件下载: