北京基因组所(国家生物信息中心)开发基于深度学习的单细胞转录组分析模型

  单细胞转录组作为单个细胞的特征,能更加精确地定义细胞的类型。常规的基于单细胞转录组的分类方法首先是进行无监督的聚类,然后根据每个集群(Cluster)特异表达的细胞标记基因来对集群进行标注。虽然基于无监督的分类方法更容易发现新细胞类型,但人工标注的过程费时费力。目前已有的基于监督学习的自动分类方法,大部分无法兼顾到方法的可解释性以及新细胞类型的发现。 

  近日,中国科学院北京基因组研究所(国家生物信息中心)蔡军研究组、北京师范大学张江研究组合作在Nature Machine Intelligence发表了题为An interpretable deep-learning architecture of capsule networks for identifying cell-type gene expression programs from single-cell RNA-sequencing data的研究成果,构建了决策过程可解释的深度学习网络模型,单细胞胶囊网络(single cell Capsule Network, scCapsNet),并用于单细胞转录组分析。相对于其他单细胞转录组自动分析工具,单细胞胶囊网络能更稳定更高效地分辨出属于新细胞类型的细胞。并且,单细胞胶囊网络能通过模型的内部参数找出细胞类型相关基因。通过细胞类型相关基因,单细胞胶囊网络能将基因与细胞类型直接联系起来,极大地提高了深度学习模型的可解释性。本质上,单细胞胶囊网络将基因的表达特征和细胞类型特征进行低维编码,这样的编码富含生物学意义。 

  中国科学院北京基因组研究所蔡军研究员与北京师范大学张江教授为本文共同通讯作者。中国科学院北京基因组研究所王力飞博士为第一作者。该研究得到科技部重点研发项目、中科院战略先导专项、及自然科学基金委等项目的资助。 

单细胞胶囊网络的结构以及模型的可解释性(细胞类型相关基因的发现)

  论文链接

 

   

附件下载: