革命性AI通过DNA模式预测衰老和疾病Revolutionary AI predicts aging and disease from DNA patterns

环球医讯 / AI与医疗健康来源:www.news-medical.net美国 - 英语2024-11-12 11:17:00 - 阅读时长5分钟 - 2175字
通过整合DNA序列和表观遗传背景,CpGPT在预测衰老相关结果方面设定了新标准,提供了前所未有的准确性,用于评估多个数据集中的死亡率和疾病风险。
AIDNA模式衰老疾病CpGPT死亡率疾病风险DNA甲基化数据集Transformer++模型
革命性AI通过DNA模式预测衰老和疾病

通过整合DNA序列和表观遗传背景,CpGPT在预测衰老相关结果方面设定了新标准,提供了前所未有的准确性,用于评估多个数据集中的死亡率和疾病风险。

背景

自变压器架构问世以来,人工智能迅速发展,尤其是在基础模型和大型语言模型(LLMs)中,这些模型利用自注意力机制捕捉复杂模式。变压器在生物学和医学领域产生了重大影响,推动了单细胞转录组学的发展,并通过如单细胞GPT(scGPT)和Geneformer等模型揭示了以前未知的生物学现象。尽管在衰老研究方面取得了进展,但许多表观遗传衰老时钟仍然依赖于简单的线性模型,使用CpG DNA甲基化数据,往往忽略了序列背景和复杂相互作用。少数预测器,如AltumAge和DeepMAge,采用了深度神经网络。仍需进一步研究,以开发更先进的模型,更好地捕捉衰老的复杂机制。

研究内容

为了开发CpGPT模型,研究人员整理了一个全面的DNA甲基化数据集,名为“CpGCorpus”,该数据集汇集了来自超过1,502项研究和超过106,000个人类样本的数据,这些数据来自基因表达综合数据库。该数据集包含了多种Illumina甲基化阵列平台的数据,代表了丰富的组织类型、发育阶段、疾病状况和人口背景。原始数据使用单样本甲基化分析管道(SeSAMe)进行处理,而已经处理的数据则使用归一化的β值矩阵。采取了质量控制措施和探针协调,以确保数据集的一致性。数据被分为训练集、验证集和测试集,且样本或研究不重叠。

CpGPT模型集成了序列、位置和表观遗传信息。输入表示包括从预训练的DNA语言模型获得的“核苷酸序列嵌入”、代表每个位点甲基化状态的甲基化β值以及基因组位置编码,以捕获CpG位点在基因组中的位置。采用了一种双位置编码策略,结合绝对位置编码和相对位置编码,以捕获多尺度的基因组信息。设计了专门的解码器,用于预测β值、条件预测和不确定性估计。

预训练使用了多任务学习方法,采用了定制的损失函数,优化了模型重建缺失数据和学习有意义样本表示的能力。微调时,选择了与死亡率相关的CpG位点,基于类内相关系数和z分数阈值。然后,使用修改后的Cox比例风险损失对模型进行训练。使用Cox回归模型、接收者操作特征分析和生存分析评估了多个队列中对死亡率和发病率的预测性能,调整了年龄并采用了适当的统计方法。

研究结果

研究人员开发了CpGPT,该模型包括来自超过1,500项研究的超过100,000个人类DNA甲基化样本,涵盖了广泛的组织类型、发育阶段和疾病状况。数据经过彻底预处理和协调,以确保各种Illumina甲基化阵列平台的一致性,如HumanMethylation450 BeadChip(450k)、HumanMethylation27 BeadChip(27k)、Infinium MethylationEPIC BeadChip(EPIC)、EPIC+和EPICv2阵列。

CpGPT集成了三种关键的上下文信息:基于每个CpG位点附近的DNA核苷酸的序列上下文、覆盖局部和全局信息的位置上下文以及表观遗传状态。序列上下文使用围绕每个CpG位点的核苷酸序列嵌入进行编码,这些嵌入来自预训练的DNA语言模型。模型按基因组位置组织序列嵌入,按染色体分组,并应用随机洗牌以防止位置偏差。每个CpG位点的甲基化状态被转换成一个嵌入,代表其表观遗传状态,这些嵌入组合形成模型的输入。

CpGPT的核心架构基于Transformer++模型,这是一种增强版的变压器架构,具有改进的训练稳定性和准确性。模型以无监督方式训练,以预测甲基化状态(β值)及其不确定性,使其能够生成有意义的样本级嵌入,封装全面的甲基化谱型。训练过程使用多种损失函数来优化各种性能方面,并设计为有效处理缺失数据。

使用降维技术进行评估表明,CpGPT的位点嵌入自然反映了功能基因组注释,CpG位点根据岛屿状态和染色质状态等特征聚类。样本嵌入有效地捕获了生物变异,根据组织类型和细胞系对样本进行聚类。该模型展示了零样本参考映射的能力,允许它将带有已知注释的参考数据集中的标签转移到新的目标数据集中,无需额外训练。

CpGPT在填补缺失的甲基化数据方面表现出色,准确重建了缺失探针的β值,并提高了各种表观遗传时钟的性能。通过其注意力机制,CpGPT动态加权特征,允许通过分配重要性评分给每个CpG位点来进行样本特定解释。这突显了对组织特异性表观遗传调节重要的生物相关基因。

当针对死亡率预测进行微调时,CpGPT在多个队列中表现出预测性能,有效地根据生物衰老谱型对个体进行分层。它与死亡率和发病率结果显著相关,包括神经退行性疾病、心血管问题和身体功能测量的风险。

结论

总之,CpGPT有效地集成了序列上下文、位置信息和表观遗传状态,以学习CpG位点和样本级别的丰富嵌入。该模型在填补缺失的甲基化值、阵列转换、零样本参考映射和预测年龄和死亡率等任务中表现出色。通过捕捉CpG位点之间的复杂依赖关系,CpGPT克服了传统线性模型的局限性,增强了对衰老相关结果和疾病风险的预测能力,适用于各种数据集。

重要通知: bioRxiv 发布初步科学报告,这些报告未经同行评审,因此不应被视为结论性的,不应指导临床实践/健康相关行为,也不应被视为既定信息。


(全文结束)

大健康

猜你喜欢

  • COVID-19与长期自身免疫和自体炎症结缔组织疾病风险之间的联系COVID-19与长期自身免疫和自体炎症结缔组织疾病风险之间的联系
  • AI正在如何改善医疗保健?全球最大的医疗机构之一给出四点答案AI正在如何改善医疗保健?全球最大的医疗机构之一给出四点答案
  • 慢性肾脏疾病或2型糖尿病患者的心血管疾病风险可能提前28年慢性肾脏疾病或2型糖尿病患者的心血管疾病风险可能提前28年
  • Healx和赛诺菲联手探索新的疾病适应症Healx和赛诺菲联手探索新的疾病适应症
  • AI驱动的马桶摄像头:未来健康监测的新工具?AI驱动的马桶摄像头:未来健康监测的新工具?
  • 超越炒作:驾驭AI驱动的癌症检测中的偏见超越炒作:驾驭AI驱动的癌症检测中的偏见
  • 大型AI准备数据集发布于2型糖尿病研究大型AI准备数据集发布于2型糖尿病研究
  • AI驱动的数据集揭示糖尿病新见解AI驱动的数据集揭示糖尿病新见解
  • 构建数字孪生AI大军对抗癌症构建数字孪生AI大军对抗癌症
  • 即使是适度运动也可能降低常见心脏疾病的风险即使是适度运动也可能降低常见心脏疾病的风险
大健康
大健康

热点资讯

大健康

全站热点

大健康

全站热文

大健康