基因组所开发完成DNA甲基化重编程数据库
DNA甲基化是一个重要的表观遗传标记,在胚胎早期发育过程中起到至关重要的作用,不同物种所采用的机制亦各不相同。因而,整合多个物种的海量甲基化数据并提供在线的数据浏览、获取及其功能分析,可帮助更多研究人员深入探析不同物种在早期发育时期的DNA甲基化差异,并揭示其DNA甲基化重编程过程与机制。
中科院北京基因组所基因组科学与信息重点实验室章张研究组、刘江研究组以及所级中心信息室组成的开发团队,在研究所高性能计算平台和大数据存储平台的有力支撑下,共同开发完成“基于高通量测序的单碱基精度DNA甲基化重编程数据库MethBank”,该成果于2014年10月在国际生物信息学领域期刊Nucleic Acids Research在线发表。
MethBank是面向多种模式生物配子和早期胚胎多个不同发育时期的DNA甲基化组重编程数据库,整合的数据包括甲基化水平、差异甲基化区域、CpG岛甲基化水平等,全部是全基因组单碱基精度的DNA甲基化数据,且集成了其它包括基因表达信息、SNP信息等在内的相关组学数据信息。此外,MethBank提供一个支持多组学数据的交互式甲基化浏览器,能够高分辨度的实现DNA甲基化图谱以及其它相关数据的可视化。
MethBank现今整合集成了斑马鱼和小鼠各自9个不同发育时期的全基因组单碱基精度DNA甲基化数据,每个时期包含全基因组约90%CG位点的甲基化信息,且对应的数据库表存有上千万条记录,数据库存储大小分别为15G和9G。MethBank的开发建立实现了海量甲基化大数据的整合与可视化,为后续其它多个物种的大数据整合提供了流程方法和数据平台。
该项研究得到了中国科学院、科技部和国家自然科学基金委的资助。
数据库页面