中南大学王建新教授团队在DNA甲基化检测研究中取得重要进展
来源:计算机学院 点击次数:次 发布时间:2021年11月01日 作者:张韵仙
本网讯 10月13日,国际权威期刊 Nature Communications 在线发表了中南大学计算机学院王建新教授团队和美国克莱姆森大学罗峰团队,中山大学中山眼科中心肖传乐团队合作的最新研究成果“Genome-wide detection of cytosine methylations in plant from Nanopore data using deep learning”。该论文提出了可准确检测植物全基因组5mC的方法,中南大学计算机学院博士研究生倪鹏为论文第一作者,中南大学计算机学院王建新教授为论文共同通讯作者,中南大学为第一署名单位。
DNA甲基化是表观遗传学中的一个重要研究问题,其在染色质结构和组织水平上的生物过程中起主要作用。近年来三代测序技术(PacBio SMRT测序和Oxford纳米孔测序)迅速发展。其中纳米孔测序的电信号对碱基修饰比较敏感,可以直接用来检测DNA甲基化,而无需额外实验技术。而且纳米孔测序成本低廉,目前已逐渐成为主流的三代测序检测DNA甲基化的技术手段。
利用纳米孔测序技术,王建新团队首先于2019年开发并在国际期刊Bioinformatics上发表了基于深度学习模型的DNA甲基化预测方法DeepSignal。DeepSignal利用双向循环神经网络和卷积神经网络充分地提取了纳米孔测序数据中碱基电信号的分布特征,能够准确预测出DNA CpG位点的甲基化状态。在人类纳米孔数据上的测试表明,DeepSignal仅使用20倍的覆盖度即可与亚硫酸氢盐测序实现90%的相关性。此外,DeepSignal比亚硫酸氢盐测序能多预测5%的DNA CpG位点。相关研究成果引起了国内外同行的广泛关注与大量应用,包括发表在 Nature Genetics, Nature Reviews Genetics,Nature Methods 等生物信息学领域国际权威期刊上的研究工作。
不同于人类等哺乳动物,在植物中5mC甲基化不仅发生在CpG位点,也在non-CpG(CHG和CHH)位点中广泛存在,并在生物过程的调节中发挥不同的作用。由于CHG和CHH在植物基因组上与CpG的甲基化水平有较大差别,且高可信训练数据难以收集,目前没有基于纳米孔测序的方法在CpG和non-CpG的5mC预测上同时具有高准确度。针对这一局限,王建新团队等在已有工作基础上,在近日发表于 Nature Communications 的研究论文中,进一步提出了可利用纳米孔测序准确检测植物全基因组5mC的方法,并开发了相应的软件DeepSignal-plant。
研究者基于所测拟南芥和水稻数据,首先利用双向循环神经网络构建DeepSignal-plant的深度学习模型,处理纳米孔数据中目标位点k-mer的信号特征和序列特征。同时,研究者设计样本平衡和去噪策略处理训练样本数据,去除训练数据中的假阳性样本,得到高可信训练数据,使模型在CpG, CHG和CHH三个motif上5mC的预测性能有了较大提升。随后,研究者利用三种植物的数据集(拟南芥、水稻和公开黑芥数据集)对训练得到的模型进行性能测试。实验表明,DeepSignal-plant在三个motif(CpG, CHG和CHH)的5mC预测结果与亚硫酸氢盐测序高度相关。此外,由于纳米孔测序的长读数优势,DeepSignal-plant可以比亚硫酸氢盐测序分析更多5mC位点(拟南芥中多测1.1%,水稻中多测5.3%)。由此可以证明DeepSignal-plant对于解析复杂植物基因组的甲基化修饰更具优势,有助于更全面地了解植物不同生物过程的表观遗传机制。