长非编码RNA(Long non-coding RNA, lncRNA)是近年来国际研究的新热点,与人类癌症、神经系统等疾病发生密切相关,在疾病诊疗方面表现出了潜在的重大应用价值。虽然长非编码RNA表达量相对较低,但由于其在转录、基因组印记、翻译、可变剪切、转录后表达调控、蛋白运输与定位等过程的重要作用而被广泛研究。人类细胞中转录大量长非编码RNA,由于其具有很强的组织与细胞特异性,该数量很可能将继续增长,给长非编码RNA的集成整合与注释带来巨大挑战。
针对长非编码RNA研究领域遇到的这个问题,中国科学院北京基因组研究所基因组科学与信息重点实验室章张研究组,与沙特阿卜杜拉国王科技大学(King Abdullah University of Science and Technology;KAUST)Vladimir Bajic教授合作,采用Wiki技术开发了基于群体审编(Community Curation)的LncRNAWiki数据库,该成果于2014年11月在国际生物信息学领域期刊Nucleic Acids Research在线发表。
LncRNAWiki数据库整合了目前已有的十万多条长非编码RNA,对长非编码RNA进行了分类,建立了多人协同注释的结构与模式,根据参与人员的编辑数量与质量,对参与人员的贡献进行量化打分,且根据分值大小给予作者身份。传统相关数据库依赖于专业人员对长非编码RNA进行注释(Expert Curation),对于数量如此庞大的长非编码RNA来说,将耗费大量人力、物力与时间。在大数据时代背景下,LncRNAWiki数据库旨在汇集整个长非编码RNA研究领域科研人员的智慧和力量,共同完善LncRNAWiki的相关信息和数据更新,以期构建一部长非编码RNA的百科全书。基于此,该课题组将进一步围绕非编码RNA,开展相关生物信息学分析及与疾病关联研究,开发数据分析工具与算法。
该项研究得到了中国科学院和国家自然科学基金委的资助。
LncRNAWiki数据库主页
论文链接