借助先进的AI技术,MethylGPT以前所未有的准确性解码DNA甲基化,为年龄预测、疾病诊断和个人化健康干预提供了新的路径。
重要通知: bioRxiv 发布未经同行评审的初步科学报告,因此这些报告不应被视为结论性的,也不应指导临床实践/健康相关行为或被视为既定信息。
在最近发布于 bioRxiv 预印服务器的一项研究中,研究人员开发了一种基于变压器的基础模型——MethylGPT,用于DNA甲基组分析。DNA甲基化是一种表观遗传修饰,通过甲基结合蛋白和染色质可及性的变化来调节基因表达。它还通过转座元件抑制来维持基因组稳定性。DNA甲基化具有理想生物标志物的特点,研究表明,在不同的病理状态下存在特定的甲基化特征,这使得分子诊断成为可能。
然而,几个分析挑战阻碍了基于DNA甲基化的诊断实施。目前的方法依赖于简单的统计和线性模型,这些模型在捕捉复杂、非线性数据方面有限。它们也无法考虑上下文特定效应,如高阶相互作用和调控网络。因此,迫切需要一个能够建模各种组织和细胞类型中复杂、非线性模式的统一分析框架。
近年来,基础模型和变压器架构的进步彻底改变了复杂生物序列的分析。基础模型也被引入到各种组学层,如AlphaFold3和ESM-3用于蛋白质组学,Evo和Enformer用于基因组学。基础模型的成就表明,类似的策略可以改变DNA甲基化分析。
研究与发现
MethylGPT能够以高精度预测DNA甲基化水平,实现皮尔逊相关系数0.929,显示出其在捕捉复杂表观遗传模式方面的精确度。
在本研究中,研究人员开发了MethylGPT,一种基于变压器的基础模型,用于DNA甲基组。首先,他们从EWAS Data Hub和Clockbase获取了226,555个人类DNA甲基化谱型,涵盖了多种组织类型。经过去重和质量控制后,保留了154,063个样本用于预训练。该模型重点关注49,156个CpG位点,这些位点是根据已知的各种性状关联选择的,以最大化其生物学相关性。
该模型使用两种互补的损失函数进行预训练:掩码语言建模(MLM)损失和谱型重建损失,使其能够准确预测被掩码的CpG位点的甲基化。模型在预测和实际甲基化水平之间的均方误差(MSE)为0.014,皮尔逊相关系数为0.929,表明其具有较高的预测准确性。研究人员还评估了模型是否能捕捉DNA甲基化的生物学相关特征。为此,他们分析了嵌入空间中CpG位点的学习表示。
结果表明,CpG位点根据其基因组背景聚类,这表明模型学习了甲基组的调控特征。此外,常染色体和性染色体之间有明显的分离,表明MethylGPT也捕捉到了更高阶的染色体特征。接下来,团队分析了零样本嵌入空间。结果显示了一个明确的生物学组织结构,按性别、组织类型和基因组背景聚类。主要组织类型形成了明确的聚类,表明模型在没有显式监督的情况下学习了特定于组织的甲基化模式。值得注意的是,MethylGPT还避免了批次效应,这通常会混淆复杂数据集的结果。此外,女性和男性样本表现出一致的分离,反映了性别特异性差异。
接下来,研究人员评估了MethylGPT从甲基化模式预测生理年龄的能力。为此,他们使用了一个来自多种组织类型的超过11,400个样本的数据集。针对年龄预测的微调导致了稳健的年龄依赖性聚类。值得注意的是,即使在微调之前,内在的年龄相关组织结构也已经明显。此外,MethylGPT在年龄预测方面超过了现有的方法(如Horvath时钟和ElasticNet),实现了更高的准确性。其年龄预测的中位绝对误差为4.45年,进一步证明了其稳健性。MethylGPT在处理缺失数据方面也表现出色,即使在高达70%的数据缺失情况下仍能保持稳定性能,优于多层感知器和ElasticNet方法。
MethylGPT对缺失数据(高达70%)的耐受性超过了传统模型,证明了其在处理不完整数据集的实际应用场景中的实用性。
对诱导多能干细胞(iPSC)重编程过程中甲基化谱型的分析显示了一个明确的年轻化轨迹;样本在重编程过程中逐渐过渡到更年轻的甲基化状态。该模型还能够确定重编程过程中的某个时间点(第20天),此时细胞开始显示出明显的表观遗传年龄逆转迹象。最后,评估了模型预测疾病风险的能力。预训练模型经过微调,用于预测60种疾病和死亡的风险。该模型在验证集和测试集上的曲线下面积分别为0.74和0.72。
此外,他们使用这一疾病风险预测框架评估了八种干预措施对预测疾病发生率的影响。这些干预措施包括戒烟、高强度训练和地中海饮食等,每种干预措施在不同疾病类别中的效果各不相同。这显示了不同干预措施在不同疾病类别中的特定效果,突显了MethylGPT在预测特定干预结果和优化个性化干预策略方面的潜力。
结论
研究结果表明,变压器架构能够有效地建模DNA甲基化模式,同时保持生物学相关性。CpG位点根据调控特征和基因组背景的组织结构表明,模型在没有显式监督的情况下捕捉到了基本方面。MethylGPT在不同组织中的年龄预测方面也表现出优越的性能。此外,其在处理缺失数据(高达70%)方面的稳健性能强调了其在临床和研究应用中的潜在用途。
重要通知: bioRxiv 发布未经同行评审的初步科学报告,因此这些报告不应被视为结论性的,也不应指导临床实践/健康相关行为或被视为既定信息。
参考文献:* 初步科学报告。 MethylGPT:一个用于DNA甲基组的基础模型,Kejun Ying, Jinyeop Song, Haotian Cui, Yikun Zhang, Siyuan Li, Xingyu Chen, Hanna Liu, Alec Eames, Daniel L McCartney, Riccardo E. Marioni, Jesse R. Poganik, Mahdi Moqri, Bo Wang, Vadim N. Gladyshev, bioRxiv 2024.10.30.621013; doi: 10.1101/2024.10.30.621013,
(全文结束)

