比较基因组学是从进化角度分析不同物种的基因组数据,解析基因功能和疾病、表型的遗传学机制。通过同源基因编码区序列的进化比较是其中最常见的分析方法之一,如PAML等方法,都在物种序列比较分析中被广泛应用。但这些方法仅分析多个物种的单一序列和分歧位点信息。随着二代、三代测序技术的发展,众多物种的基因组测序都已完成,越来越多的物种都在种内水平有了多个样本的群体基因组数据。如果能将多物种群体水平的遗传多态和物种水平的进化相结合进行分析,将有助于解析物种(尤其是近缘种)产生过程中适应性进化和特有表型形成的机制。迄今为止,尚且缺乏此类方法。
中科院北京基因组所陈华研究组与昆明动物所合作,首次开发了能够同时分析多个物种的群体基因组数据的方法HDMKPRF。该方法以Hartl、Bustamante等的泊松随机场模型和McDonald-Kreitman检验为框架,通过多个物种的联合等位基因频谱理论构建群体遗传学模型,有效整合了微进化过程与宏观进化。与现有分析方法比较,该方法采用贝叶斯方法,很大程度提高了对自然选择基因的检测功效;通过多个物种的群体基因组比较分析,能够有效把自然选择发生时间定位在多物种进化树的具体某个阶段(分支)上。该方法还提供了对各个物种的群体大小、物种分化时间以及自然选择强度等参数的后验概率分布。
利用该方法,研究人员对现代人、黑猩猩、大猩猩和猩猩四个灵长类物种基因组数据做了分析,在各个物种中鉴定了受到自然选择而快速进化的基因。发现在人的特异性进化中,有84个与表达调控相关的基因受到正选择,广泛分布在锌指蛋白基因家族、小RNA调节通路、TP调控、组蛋白修饰基因等不同类型中,印证了进化学家Allan Wilson和Mary-Claire King在1975年提出的观点,即基因调控是人与黑猩猩在99%基因组序列相似基础上表型高度差异的主要因素之一;发现与免疫、代谢等相关的通路受到了正选择。此外,有大量的现代人与其他大猿分歧的基因富集在精神分裂症、神经系统疾病相关的通路上,部分快速进化基因集中在精子生成、生殖相关通路上。该分析提供了灵长类四类大猿基因进化在时间轴和基因组上的自然选择图谱,为后续的进一步功能解析研究提供了基础。
该研究于3月6日在线发表在进化生物学期刊《分子生物学与进化》上。研究得到了国家自然科学基金委重大研究计划“微进化过程的多基因作用机制”、中科院院先导专项“动物复杂性状的进化解析与调控”等项目支持。
HDMKPRF方法的模型和和参数示意图
应用电脑仿真对HDMKPRF在检测功效、对分歧时间、选择强度等参数推断上进行性能检验
论文链接