国家生物信息中心研发新冠病毒高风险变体早期预警算法
自新冠肺炎疫情暴发以来,新冠病毒持续演变,新出现的高风险病毒变体可能突破现有疫苗与抗体的防护屏障,因而需要不断调整防控策略以应对可能的危害,因此,准确且及时地预警高风险变异株对疫情防控至关重要。
10月15日,国家生物信息中心宋述慧团队等基于全球公开发布的全基因组序列,研发了新冠病毒高风险变体早期检测预警的机器学习算法HiRisk-Detector,为全球新冠疫情的精准防控提供了高风险变体监测预警的方法技术支撑。
团队基于前期已建立的新冠病毒信息库(Genomics Proteomics Bioinformatics 2020, 2023)和自主研发的海量基因组大数据单体型网络快速解析算法McAN (Briefings in Bioinformatics 2023),通过构建并提取连续时序的单体型演化网络特征,经不同机器学习模型和最优特征组合的测试,构建了高风险变体监测预警算法HiRisk-Detector。团队利用超过760万条高质量且完整的新冠病毒基因组及其元数据,验证了HiRisk-Detector的有效性、稳健性和泛化能力。首先,回顾性研究表明HiRisk-Detector可预警到世界卫生组织WHO已报道的所有13种高风险变异株,其预警时间比WHO官方公布的时间平均提前27天,验证了其早期预警的有效性。其次,将测序强度抽减至实测量的四分之一,预警仅延迟3.8天,证明了该算法的稳健性。最后,HiRisk-Detector还可应用于对新冠病毒奥密克戎子支系的风险预警,其ROC-AUC和PR-AUC等性能指标均高于0.92,展示了该算法的广泛适用性。总之,HiRisk-Detector具备了高风险变异株早期自动化预警能力,对新冠病毒及其他新发突发传染病防控具有重要应用价值。
HiRisk-Detector算法的源代码已在BioCode 与GitHub 两大平台公开发布,用户可免费下载获取,并可在新冠病毒信息库RCoV19的高风险变体预警模块直观浏览追踪HiRisk-Detector的历次预警结果。
上述研究成果以“Machine learning early detection of SARS-CoV-2 high-risk variants”为题在国际学术期刊Advanced Science 在线发表。国家生物信息中心李论助理研究员、李翠萍高级工程师和陆军装甲兵学院李娜讲师为论文的共同第一作者,宋述慧研究员、鲍一明研究员、章张研究员和薛勇彪研究员为论文的共同通讯作者。该研究得到国家重点研发计划、“一带一路”国际科学组织联盟ANSO联合研究合作专项、北京市科技新星计划等项目的支持。
HiRisk-Detector算法示意图