北京基因组所(国家生物信息中心)马利娜副研究员等应邀在国际权威综述期刊Nature Reviews Molecular Cell Biology发表长非编码RNA数据库评述文章
近日,中国科学院北京基因组研究所(国家生物信息中心)马利娜副研究员应Nature Reviews Molecular Cell Biology 邀请,联合章张研究员,发表题为“The contribution of databases towards understanding the universe of long non-coding RNAs”的评述,系统总结了长非编码RNA(long non-coding RNA,lncRNA)数据库的类型及特点,讨论生物数据库在lncRNA研究的机遇和挑战中将如何发挥作用。
LncRNA是一类长度超过200个核苷酸的RNA分子,没有蛋白编码能力或蛋白编码能力有限。LncRNA普遍存在于动植物中,其在人类中的数量甚至超过了蛋白编码基因,在疾病、稳态平衡、应激反应中发挥至关重要的调节作用。随着lncRNA的广泛研究和相关组学数据的迅速积累,愈发需要全面收集lncRNA并提供高质量注释,以及全面了解lncRNA与各种疾病、性状和表型的关联,促进对lncRNA功能的系统研究。近年来,lncRNA相关数据库不断发展壮大,截至本评述文章撰写之时,作者收集了130余个lncRNA专题或以lncRNA为主要研究对象的生物数据库,划分为“鉴定与整合”、“组学特征解析”、“知识关联”三个主要类型。
“鉴定与整合”类型的数据库为研究lncRNA的多样性和生物学功能提供最为基础的序列和基因组注释信息,包括GENCODE、CHESS、FANTOM CAT、MiTranscriptome、NONCODE、LncBook、RNAcentral等数据库。其中人类lncRNA的鉴定和数据整合是研究重点,国内外已有10余个相关数据库。由于鉴定标准、测序方案、样本的不同, lncRNA数据集之间存在较大差异,而且随着不同物种中lncRNA的大规模鉴定,lncRNA的比较与整合将成为基因组学研究中的基础环节,迫切需要构建流程化和自动化的整合工具,以为各项研究提供全面和高质量的lncRNA数据集。
另一方面,lncRNA被称为基因组中的“暗物质”,大部分lncRNA具有生物学功能还是仅为“转录噪音”仍是一个存在争议的话题。“组学特征解析”数据库提供丰富多样的分子特征如动态表达、相互作用、基因组变异、表观遗传修饰、编码小肽、表达数量性状基因座等,为发掘具有潜在生物学功能的lncRNA并了解其调控机制提供数据参考。代表数据库包括TANRIC、LncExpDB、starBase/ENCORI、NPInter、DIANA-LncBase、LncBook、LncSEA等。鉴于目前仅有极小一部分lncRNA的功能被研究,且其主要调控机制尚不清楚,仍需对lncRNA的组学特征进行系统深入的刻画与解析。
随着越来越多的lncRNA被实验研究,lncRNA相关知识逐渐积累,产生了LncRNADisease、Lnc2Cancer、LncRNAWiki、EVLncRNAs等数据库或知识库。这些库主要通过文献审编获得lncRNA与不同疾病、性状和表型的关联,注释相关调控机制、靶基因、代谢通路、生物学过程等,促进对lncRNA功能的系统了解,并为lncRNA生物学功能预测提供数据。然而由于标准不统一、命名不规范等, lncRNA的名称、基因结构、编码性质存在不同版本和变化,严重阻碍了lncRNA的数据审编和功能研究。考虑到lncRNA与部分信使RNA(mRNA)具有相似的分子特征,并且一个基因可能同时编码蛋白编码和非编码转录本,在基因层面进行严格分类将会引发lncRNA功能研究的诸多问题,有必要发展新的基因分类和命名方法。
LncRNA是继mRNA后的另一大类RNA分子,调控人类健康与疾病,是未来临床检测治疗和药物研发的新靶点,是人类物种特性研究的关键对象。然而其数量庞大、种类复杂、功能多样,以及普遍特异性强、表达量低的特性,为深入研究带来极大挑战。数据库在数据审编与挖掘方面,需建立统一的lncRNA鉴定、表征和关联研究的标准和方法,以构建完整的lncRNA研究体系。国家生物信息中心将持续完善lncRNA数据资源体系,推动人类基因组的全面注释和解析。