
宋述慧SONG Shuhui
研究员
电子邮件: | songshh@big.ac.cn |
---|
学习经历:
2003年9月-2008年1月 中国科学院北京基因组研究所 生物信息学专业 遗传学博士
工作经历:
2023年12月 至今 中国科学院北京基因组研究所(国家生物信息中心) 国家基因组科学数据中心 副主任
2022年1月 至今 中国科学院北京基因组研究所(国家生物信息中心) 研究员 博士生导师
2010年12月-2021年12月 中国科学院北京基因组研究所 副研究员 硕士生导师
2008年4月-2010年12月 中国科学院北京基因组研究所 助理研究员
学术兼职:
中国生物工程学会 计算生物学与生物信息学专业委员 (2021.5—2026.5)
中国医药教育协会 医学基因组学与生物信息学专业委员会委员(2022.8—2027.8)
全国科技平台标准化技术委员会(TC486)专业委员 科学数据专家组成员 (2021.1—2024.11)
中关村国基条件科技资源共享服务创新联盟团体标准化技术委员会委员 (2022.8—2027.8)
CHINA CDC WEEKLY青年编委 (2023-2026)
获奖及荣誉:
2018年 中国生物信息学十大进展(生命与健康大数据中心)
2020年 中国生物信息学十大进展(国家基因组学科学数据中心、新冠病毒信息库)
2021年 中国生物信息学十大进展(国家基因组学科学数据中心)
2021年 中华人民共和国科学技术部《全国科技系统抗击新冠肺炎疫情先进集体》(成员,2021.12.29)
2022年 新冠病毒变异监测与分子溯源研究团队荣获中国科学院荣获第三届“科院名匠”称号(团队成员,2022.09.30)
生物信息学,生物大数据整合挖掘和应用,遗传变异大数据分析算法软件研发
近五年代表性论著
1. Liu X, Tian D, Li C, Tang B, Wang Z, Zhang R, Pan Y, Wang Y, Zou D, Zhang Z, Song S. GWAS Atlas: an updated knowledgebase integrating more curated associations in plants and animals. Nucleic Acids Res, 2023,51(D1):D969-D976. (并列通讯)
https://www.ncbi.nlm.nih.gov/pubmed/36263826.
2. Hua Z, Jiang C, Song S, Tian D, Chen Z, Jin Y, Zhao Y, Zhou J, Zhang Z, Huang L, Yuan Y. Accurate identification of taxon-specific molecular markers in plants based on DNA signature sequence. Mol Ecol Resour, 2023,23(1):106-117. (并列第一)
https://www.ncbi.nlm.nih.gov/pubmed/35951477.
3. Zhang ZW, Teng X, Zhao F, Ma C, Zhang J, Xiao LF, Wang Y, Chang M, Tian Y, Li C, Zhang Z, Song S, Tong WM, Liu P, Niu Y. METTL3 regulates m(6)A methylation of PTCH1 and GLI2 in Sonic hedgehog signaling to promote tumor progression in SHH-medulloblastoma. Cell Rep, 2022,41(4):111530. (并列通讯)
https://www.ncbi.nlm.nih.gov/pubmed/36288719.
4. Song S as co-first author in National Genomics Data Center Members and Partners. Database Resources of the National Genomics Data Center, China National Center for Bioinformation in 2022. Nucleic Acids Res, 2022,50(D1):D27-D38. (并列第一)
https://www.ncbi.nlm.nih.gov/pubmed/34718731.
5. Ma Y, Chen M, Bao Y, Song S, Team MP. MPoxVR: A comprehensive genomic resource for monkeypox virus variant surveillance. Innovation (Camb), 2022,3(5):100296. (并列通讯)
https://www.ncbi.nlm.nih.gov/pubmed/36039088.
6. Hua Z, Tian D, Jiang C, Song S, Chen Z, Zhao Y, Jin Y, Huang L, Zhang Z, Yuan Y. Towards comprehensive integration and curation of chloroplast genomes. Plant Biotechnol J,2022,20(12):2239-2241. (并列第一)
https://www.ncbi.nlm.nih.gov/pubmed/36069606.
7. Teng X, Li Q, Li Z, Zhang Y, Niu G, Xiao J, Yu J, Zhang Z, Song S. Compositional Variability and Mutation Spectra of Monophyletic SARS-CoV-2 Clades. Genomics, Proteomics & Bioinformatics,2021. (并列通讯)
https://www.sciencedirect.com/science/article/pii/S1672022921000103.
8. Song S as co-first author in National Genomics Data Center Members and Partners. Database Resources of the National Genomics Data Center, China National Center for Bioinformation in 2021. Nucleic Acids Res, 2021,49(D1):D18-D28. (并列第一)
https://www.ncbi.nlm.nih.gov/pubmed/33175170.
9. Song S as co-first author in China-WHO Jointly team. WHO-convened global study of origins of SARS-CoV-2: China Part. 2021. (并列第一)
https://www.who.int/publications/i/item/who-convened-global-study-of-origins-of-sars-cov-2-china-part.
10. Song S, Li C, Kang L, Tian D, Badar N, Ma W, Zhao S, Jiang X, Wang C, Sun Y, Li W, Lei M, Li S, Qi Q, Ikram A, Salman M, Umair M, Shireen H, Batool F, Zhang B, Chen H, Yang Y, Ali Abbasi A, Li M, Xue Y, Bao Y. Genomic Epidemiology of SARS-CoV-2 in Pakistan. Genomics Proteomics Bioinformatics,2021. (并列第一)
https://www.ncbi.nlm.nih.gov/pubmed/34695600.
11. Liu X, Wang P, Teng X, Zhang Z, Song S. Comprehensive Analysis of Expression Regulation for RNA m6A Regulators With Clinical Significance in Human Cancers. Front Oncol,2021,11:624395. (并列通讯)
https://www.ncbi.nlm.nih.gov/pubmed/33718187.
12. Li C, Tian D, Tang B, Liu X, Teng X, Zhao W, Zhang Z, Song S. Genome Variation Map: a worldwide collection of genome variations across multiple species. Nucleic Acids Res, 2021,49(D1):D1186-D1191. (并列通讯)
https://www.ncbi.nlm.nih.gov/pubmed/33170268.
13. Zhao WM, Song SH, Chen ML, Zou D, Ma LN, Ma YK, Li RJ, Hao LL, Li CP, Tian DM, Tang BX, Wang YQ, Zhu JW, Chen HX, Zhang Z, Xue YB, Bao YM. The 2019 novel coronavirus resource. Yi Chuan,2020,42(2):212-221. (并列第一)
https://www.ncbi.nlm.nih.gov/pubmed/32102777.
14. Yan J, Zou D, Li C, Zhang Z, Song S, Wang X. SR4R: An Integrative SNP Resource for Genomic Breeding and Population Research in Rice. Genomics Proteomics Bioinformatics, 2020,18(2):173-185. (并列通讯)
https://www.ncbi.nlm.nih.gov/pubmed/32619768.
15. Tian D, Wang P, Tang B, Teng X, Li C, Liu X, Zou D, Song S, Zhang Z. GWAS Atlas: a curated resource of genome-wide variant-trait associations in plants and animals. Nucleic Acids Res, 2020,48(D1):D927-D932. (并列通讯)
https://www.ncbi.nlm.nih.gov/pubmed/31566222.
16. Song S as co-first author in National Genomics Data Center Members and Partners. Database Resources of the National Genomics Data Center in 2020. Nucleic Acids Res, 2020,48(D1):D24-D33. (并列第一)
https://www.ncbi.nlm.nih.gov/pubmed/31702008.
17. Song S, Ma L, Zou D, Tian D, Li C, Zhu J, Chen M, Wang A, Ma Y, Li M, Teng X, Cui Y, Duan G, Zhang M, Jin T, Shi C, Du Z, Zhang Y, Liu C, Li R, Zeng J, Hao L, Jiang S, Chen H, Han D, Xiao J, Zhang Z, Zhao W, Xue Y, Bao Y. The Global Landscape of SARS-CoV-2 Genomes, Variants, and Haplotypes in 2019nCoVR. Genomics Proteomics Bioinformatics, 2020,18(6):749-759. (并列第一)
https://www.ncbi.nlm.nih.gov/pubmed/33704069.
18. Liu S, Li C, Wang H, Wang S, Yang S, Liu X, Yan J, Li B, Beatty M, Zastrow-Hayes G, Song S, Qin F. Mapping regulatory variants controlling gene expression in drought response and tolerance in maize. Genome Biol, 2020,21(1):163. (并列通讯)
https://www.ncbi.nlm.nih.gov/pubmed/32631406.
19. Liu Q, Zhao S, Shi CM, Song S, Zhu S, Su Y, Zhao W, Li M, Bao Y, Xue Y, Chen H. Population Genetics of SARS-CoV-2: Disentangling Effects of Sampling Bias and Infection Clusters. Genomics Proteomics Bioinformatics, 2020. (并列第一)
https://www.ncbi.nlm.nih.gov/pubmed/32663617.
20. Gong Z, Zhu JW, Li CP, Jiang S, Ma LN, Tang BX, Zou D, Chen ML, Sun YB, Song SH, Zhang Z, Xiao JF, Xue YB, Bao YM, Du ZL, Zhao WM. An online coronavirus analysis platform from the National Genomics Data Center. Zool Res, 2020,41(6):705-708.
https://www.ncbi.nlm.nih.gov/pubmed/33045776.
21. Song S as co-first author in BIG Data Center Members. Database Resources of the BIG Data Center in 2019. Nucleic Acids Res, 2019,47(D1):D8-D14. (并列第一)
https://www.ncbi.nlm.nih.gov/pubmed/30365034.
22. Song S, Zhang Z. Database Resources in BIG Data Center: Submission, Archiving, and Integration of Big Data in Plant Science. Mol Plant, 2019,12(3):279-281. (并列第一)
https://www.ncbi.nlm.nih.gov/pubmed/30716410.
23. Jiang LG, Li B, Liu SX, Wang HW, Li CP, Song SH, Beatty M, Zastrow-Hayes G, Yang XH, Qin F, He Y. Characterization of Proteome Variation During Modern Maize Breeding. Mol Cell Proteomics, 2019,18(2):263-276.
https://www.ncbi.nlm.nih.gov/pubmed/30409858.
24. Song S as co-first author in BIG Data Center Members. Database Resources of the BIG Data Center in 2018. Nucleic Acids Res, 2018,46(D1):D14-D20. (并列第一)
http://www.ncbi.nlm.nih.gov/pubmed/29036542.
25. Song S, Tian D, Zhang Z, Hu S, Yu J. Rice Genomics: over the Past Two Decades and into the Future. Genomics Proteomics Bioinformatics, 2018,16(6):397-404. (第一作者和并列通讯)
https://www.ncbi.nlm.nih.gov/pubmed/30771506.
26. Song S, Tian D, Li C, Tang B, Dong L, Xiao J, Bao Y, Zhao W, He H, Zhang Z. Genome Variation Map: a data repository of genome variations in BIG Data Center. Nucleic Acids Res, 2018,46(D1):D944-D949. (并列第一和并列通讯)
http://www.ncbi.nlm.nih.gov/pubmed/29069473.
27. Ma C, Chang M, Lv H, Zhang ZW, Zhang W, He X, Wu G, Zhao S, Zhang Y, Wang D, Teng X, Liu C, Li Q, Klungland A, Niu Y, Song S, Tong WM. RNA m(6)A methylation participates in regulation of postnatal development of the mouse cerebellum. Genome Biol, 2018,19(1):68. (并列通讯)
https://www.ncbi.nlm.nih.gov/pubmed/29855379.
1. 中国科学院前瞻战略科技先导专项(A类),甘蔗遗传育种资源深度挖掘和创新应用,2023.10-2028.9,在研,项目负责人;
2. 国家自然基金委重点项目,跨尺度免疫力大数据资源平台及关键技术研发,2024.01-2027.12,在研,项目负责人;
3. 技创新2030—重大项目,高效基因型鉴定关键共性技术研究,2022.12-2023.12,在研,任务负责人;
4. “一带一路”国际科学组织联盟联合研究合作专项,全球新发突发传染病危险株系精准预警方法研究,2022.12-2025.11,在研,项目负责人;
5. 国家自然基金委面上项目,基于单体型网络拓扑结构动态鉴定新冠病毒演化谱系算法研究,2023.01-2026.12,在研,项目负责人;
6. 中国科学院,中国科学院青年创新促进会优秀会员,2022.1-2024.12,在研,项目负责人;
7. 科技部重点研发计划,海量病原基因组序列解析方法及追踪应用平台研发,2021.12-2024.11,在研,课题负责人;
8. 中国科学院前瞻战略科技先导专项(A类),已知遗传位点关联系统及表型鉴定软件开发,2019.11-2024.12,在研,任务负责人
1. 植物图像表型归档库
高通量植物表型采集技术在植物表型组学研究中广泛应用,产生了大量的图像和基于图像的性状数据,这些数据是种质筛选、植物病虫害鉴定、农艺性状挖掘等应用的重要资源。构建植物图像及相关性状数据管理平台,不仅有利于数据的查询、访问、互操作和重复利用,还有助于图像的元信息与表型数据的标准化,是当前智慧农业驱动下植物表型组学数据应用的重要支撑平台。Open Plant Image Archive (OPIA, https://ngdc.cncb.ac.cn/opia/),人工审编整合了56个高质量的植物图像数据集,涵盖11个物种、6种组织类型,总计566,225张图像、2,417,186个注释实例。通过综合考虑图像样本数量、图像质量、图像样本的丰富度、图像标签类别平衡性等因素,OPIA为每个图像数据集计算了一个数据集评分。此外,OPIA基于单株RGB图像,整合了93个水稻和105个小麦品系的56个图像数量性状,并基于植物性状本体对这些基于图像的性状进行了进一步注释。为提高图像数据的再利用率,OPIA还提供了图像预处理和智能预测工具。该研究工作在核酸研究在线发表(Nucleic Acids Res 2023, 共同通讯)。
2. 新研发海量病原基因组数据快速解析关键算法
单体型网络是一种可直观刻画序列间演化过程和亲缘关系的方法,在追踪不同物种的进化和迁移方面发挥着重要作用。在传染病应用方面,单体型网络节点的序列带有病毒传播变异的时空信息,便于分析病毒传播变异的动力学机制。但随着新冠病毒基因组数据爆炸式持续增长,现有的单体型网络构建算法不能满足海量数据的快速分析,团队新研发基于最小树形图的单体型网络快速构建新算法,具有较快的运行速度和较高的精度,可在约20分钟内完成500万数量级的单体型网络构建,研究成果在线发表在生物信息学简介(Briefings in Bioinformatics 2023,共同通讯)。
3. 持续更新新冠病毒信息库的功能模块
RCoV19开发了全自动化的数据智能审编模型和数据共享页面,建立了基因组快速变异解析流程、单倍型网络演化构建算法以及基于机器学习的高风险株系预警模型,开发了新冠病毒传播演化实时监测平台、高风险变异株预警可视化系统和交互式突变谱快速比对功能模块,实现了新冠病毒基因组序列、变异和演化支系的可视化动态监测,高风险变异株的及早预警,以及重要序列或谱系的变异特征规律分析。上述方法平台为基因组大数据驱动的公共卫生安全响应提供了重要的技术和数据支持。RCoV19人工审编了新冠病毒基因组突变的效应知识,涵盖感染性/传染性、抗体抗性、药物抗性和T细胞表位等,可帮助科研人员及防控政策决策人员更好地理解新冠病毒的变异特性,为科学研究及防控决策提供重要的参考依据。