近日,由中国科学院北京基因组研究所(国家生物信息中心)国家基因组科学数据中心开发的人类长非编码RNA(long non-coding RNA, lncRNA)表达数据库LncExpDB正式上线。该研究成果以“LncExpDB: an expression database of human long non-coding RNAs”为题在国际学术期刊《核酸研究》(Nucleic Acids Research)在线发表。
LncRNA通过复杂多样的分子机制发挥重要调控功能,在多个生物学过程以及疾病发生发展中均发挥重要作用。目前,人类基因组中已鉴定出十万多个lncRNA基因,但有功能研究的仅有数千条,因此全面注释lncRNA功能是人类基因组研究的重要内容和巨大挑战。近年来,高通量测序技术的迅速发展促进了正常组织、疾病、胚胎发育、器官分化、病毒侵染、亚细胞区室等多种生物学场景的研究,积累了丰富的组学数据,尤其是转录组测序数据,为从多角度发现和研究lncRNA的生物学功能提供了重要的数据基础与研究思路。
LncExpDB数据库致力于提供多生物学场景的lncRNA表达谱,鉴定具有潜在功能的lncRNA,促进lncRNA的功能实验研究。在LncBook数据库构建的人类lncRNA数据集基础上,研究人员整合CHESS、RefLnc、FANTOM等10余个专业数据库鉴定的lncRNA,基于严格审编标准,获得全面的高质量人类lncRNA参考数据集,包含101,293个基因/33,1244个转录本。LncExpDB数据库进一步整合9种重要生物学场景(正常组织/细胞系、器官发育、植入前胚胎发育、细胞分化、亚细胞定位、外泌体、癌症细胞系、病毒侵染、昼夜节律)的1,977个样本的转录组数据,通过标准化的转录组数据分析流程,系统分析并鉴定每种生物学场景的特征基因(管家基因/组织特异性基因、差异表达基因、节律基因、动态表达基因、亚细胞区室富集基因)集合,共计25,191个特征lncRNA基因和28,443,865对相关的lncRNA-mRNA共表达关系。此外,LncExpDB鉴定了具有表达证据支持的92,016个lncRNA基因,评估了lncRNA的表达水平与表达潜力。
LncExpDB数据库具备友好的检索、浏览与可视化功能,方便用户通过不同基因/转录本ID、基因symbol进行检索和浏览,探索特定生物学场景下特征基因与共表达关系,全面比较lncRNA在不同生物学场景中的功能差异,提供FTP下载所有相关注释信息与分析结果的开放共享功能,为非编码RNA功能研究提供了重要数据基础和共享平台。
北京基因组所(国家生物信息中心)硕士研究生李昭和博士研究生刘琳为本文共同第一作者,马利娜副研究员与章张研究员为共同通讯作者。该研究得到了中科院战略性先导科技专项、国家重点研发计划、中科院青促会等项目资助。
LncExpDB数据审编与分析流程
文章链接