从单细胞生物到智人大约4000百万年进化过程中,基因不断地获得与丢失,使得基因都具有特定的基因年龄(Gene Age),并在漫长的演化过程中留下与基因年龄相关的印记(Age-Related Signatures; ARS)。因此,探讨基因年龄与ARS可帮助我们深入揭示分子进化机制、基因功能形成以及人类基因的演化历史。近期,北京基因组研究所“院基因组科学与信息重点实验室”、“生命与健康大数据中心”章张研究员带领的科研团队通过划分基因年龄,追溯人类基因演化历史,整合分析多组学层次上的ARS,开展ARS与基因年龄的系统研究取得了一系列工作进展。该项研究成果近期在Genome Biology and Evolution杂志在线发表。
在生命与健康大数据中心(BIG Data Center;http://bigd.big.ac.cn)高性能计算平台的有力支撑下,研究团队首先在研究技术层面,基于马尔可夫聚类和系统发生分析的方法,将人类基因追溯到26个年龄集合中,该年龄分类策略极大提升了年龄鉴定中的准确性。在此基础上,研究团队整合分析了多组学水平上10种不同的ARS,包括基因长度、GC含量、表达量、甲基化程度、蛋白与蛋白交互网络(PPIN)等,通过主成分分析方法系统解析,发现GC含量和PPIN是与基因年龄最为相关的两种演化印记。同时,进一步研究揭示出与多拷贝基因(Duplicates)相比,PPIN在单拷贝基因(Singletons)中与基因年龄的相关性更为显著。
该研究成果将为进一步探索人类基因形成的分子机制(尤其是De novo基因),挖掘与癌症相关的基因演化历史,以及深入探讨疾病发生发展的机制机理研究等奠定重要基础。
此工作获得了中科院战略性先导科技专项资助、国家高技术研究和发展计划(863计划)等资助。
论文链接:http://gbe.oxfordjournals.org/content/early/2016/09/07/gbe.evw216
图1 基因年龄相关的ARS主成分分析