国家生物信息中心合作开发基于深度学习模型的空间转录组精细分辨率细胞注释算法STASCAN

细胞在组织和器官内的空间位置与其功能紧密相关。新兴的空间转录组技术能够在组织中原位捕获转录信息,为研究人员解析基因表达谱从而解码细胞空间分布、破译组织的空间结构、理解复杂的生物学功能提供了条件。

当前主流的空间转录组技术分为两种,基于成像的技术和基于高通量测序的技术。其中,基于高通量测序的技术因为拥有成熟的商业产品应用更为广泛。然而,基于高通量测序的空间转录组技术往往受限于粗粒度的分辨率,其在单一捕获域中测量多个细胞的混合转录本,且捕获域间隙间存在大片未测量的组织区域。同时,虽然连续测量的空间转录组切片可用于构建三维细胞图谱以破译器官结构,但高昂的技术成本往往只允许对一小部分连续的组织切片进行测序,从而导致了Z轴方向受限的分辨率,阻碍了三维图谱的建立。

现有的计算方法通过反卷积等方式实现了捕获域内混合细胞类型注释,但未对捕获域间未测量区域细胞类型进行填补,提升的分辨率有限。此外,现有方法往往只关注基因表达信息,未结合形态学信息进行细胞注释,注释准确度也有待提高。

10月22日,国家生物信息中心杨运桂团队和中国科学院数学与系统科学研究院张世华团队合作在Genome Biology 发表了题为STASCAN deciphers fine-resolution cell-distribution maps in spatial transcriptomics by deep learning 的研究论文,针对不同空间转录组技术、不同生物组织建立解码细胞空间精细分布、解析特异组织结构的新工具STASCAN。

STASCAN基于深度学习模型,整合空间转录组基因表达数据和组织学图像,实现组织切片未测量区域细胞类型预测及测量区域捕获域内细胞细分注释。STASCAN的核心优势在于,它不仅能以高精度进行细胞类型注释并显著增强细胞空间分辨率,还可解析原始分辨率下无法识别的精细组织结构,并进一步揭示详尽的细胞类型小生境,加速研究人员对发育和疾病的理解。此外,STASCAN仅基于相邻切片的组织学图像生成细胞分布图,从而能够构建更详细的3D细胞图谱,减少实验成本。

STASCAN首先在公共涡虫空间数据集中进行原始分辨率下的基准测试,其实现优于其他算法的精准细胞注释,且能够仅从图像预测细胞类型。STASCAN进一步于涡虫数据集中应用三个功能模块,揭示了原始分辨率下无法识别的精细组织结构、精准定位细胞混合物的组成及其在亚分辨率下的不同位置、仅基于邻近染色图像实现细胞分布预测,最终成功构建超原始分辨率六倍的精细细胞三维分布图谱。

此外,STASCAN成功应用于来自不同空间转录组学技术的跨物种的多个数据集。STASCAN在人类肠道数据集中准确定位肠道组织不同细胞层的边界;在人类肺数据集中特异识别微米级精细结构;在人类心肌数据集中准确预测测序缺失区域中的潜在细胞分布,重绘人体心肌梗死组织中的空间结构变化;在小鼠胚胎脑数据集中解码细胞空间精细分布,精准复刻小鼠脑发育过程中组织解剖学结构。

综上所述,STASCAN提供了一种强大的工具,用于整合空间基因表达信息和组织学图像进行精细分辨率细胞注释,在解码细胞空间精细分布和解析特异组织结构方面展现出显著优势。随着空间转录组技术的快速发展和数据的不断积累,STASCAN将对大规模空间转录组数据的整合分析提供基础强有力的支持。

国家生物信息中心博士研究生吴盈为本文第一作者,中国科学院数学与系统科学研究院张世华研究员和国家生物信息中心杨运桂研究员为本文共同通讯作者。本工作得到国家重点研发计划、国家自然科学基金等项目资助。

STASCAN模型框架图

论文链接

附件下载: