近日,中国科学院北京基因组研究所方向东研究组等在Briefings in Bioinformatics发表题为Platform-independent approach for cancer detection from gene expression profiles of peripheral blood cells的研究论文,通过正常女性和乳腺癌病人外周血全细胞转录组比较,发现特定基因间的相对表达量大小可以区分正常人和乳腺癌病人,并发现相应基因在预测乳腺癌病人预后中的作用。这是首次通过大规模人群的外周血转录组数据来区分正常人和乳腺癌患者,相关算法模型已获批国家发明专利。
肿瘤是系统性疾病,在肿瘤发生发展过程中,除病灶位置外,外周血中多种细胞的表达量也发生变化,这使得我们有机会通过外周血在分子层次实现对肿瘤的追踪。研究人员整合公共数据库中上千例正常和乳腺癌个体外周血转录组数据,通过创新性的秩归一化方式屏蔽不同转录组检测平台、不同批次之间的噪音,并通过人工智能方法实现高维数据特征筛选和模型构建。在模型验证过程中,研究人员发现模型具有良好的泛化能力,在RNA-seq、不同芯片平台以及不同人种之间都取得了很好的预测效果。
该研究揭示了外周血转录组在肿瘤早筛中的作用。过往研究发现血小板转录组在预测肿瘤中的作用,但限于标准化方法不统一、数据集小等原因,取得的模型很难扩展到独立的数据集中,血小板转录组也受到除肿瘤之外其他因素的影响。该研究一方面整合外周血全细胞转录组,最大程度地降低了单一细胞类型受特定环境影响所导致的非特异性变化,另一方面基于秩序的标准化方法使不同来源的数据可以统一比较,大幅提升了可整合的数据量和肿瘤分类效果。
近年来乳腺癌发病低龄化趋势明显,为提高乳腺癌早期发现率并延长生存时间,外周血循环肿瘤细胞相关检测是研究热点,以循环肿瘤细胞(CTC) 为研究对象的一系列研究, 不仅能够对肿瘤患者的病情发展进行实时、动态监测, 更是了解肿瘤细胞内部致病分子机制的窗口, 从而为精准预防、精准治疗提供可能。目前相关研究已与解放军总医院等多个医学研究中心展开进一步合作,并已入组超过2000例正常女性、不同时期乳腺癌患者和高危人群,希望通过进一步的前瞻性研究提高分类效果,实现乳腺癌的早期诊断,减轻家庭和社会负担。
该研究得到了国家重点研发计划精准医学专项、863计划等基金资助。
数据标准化、特征筛选及模型构建
论文链接