国内健康环球医讯家医百科药品库医药资讯

AI工具识别致病启动子突变

AI Tool Identifies Disease-Driving Promoter Mutations

美国英文科技/健康
新闻源:The Scientist
2025-06-25 13:00:00阅读时长3分钟1440字
健康致病启动子突变基因表达失调遗传疾病癌症糖尿病自身免疫性疾病心血管疾病PromoterAI罕见疾病原因

内容摘要

科学家利用深度神经网络PromoterAI,通过分析数万人的基因组数据预测启动子序列变化对基因表达的影响,发现启动子突变可能解释了一部分未解决的罕见疾病,并估计其占遗传疾病的六成。

使用来自数万名个体的基因组数据,科学家开发了一种深度神经网络,可以预测启动子序列的变化将如何影响基因表达。

人体中的每个细胞就像一碗微小的基因汤,含有来自数千个基因的RNA。但与实际的汤不同,后者可以容忍某些成分稍多或稍少,而基因表达水平偏离正常值则会对细胞产生有害影响。这些基因表达的变化可能导致癌症、糖尿病、自身免疫性疾病和心血管疾病等。

各种DNA调控元件共同作用以确保基因表达符合细胞的需求,其中关键的是基因启动子。科学家之前已经表明,启动子可以显著改变基因表达,这表明这些非编码DNA区域的突变可能是罕见遗传疾病和癌症的根本原因。然而,识别这些致病启动子变异十分困难。

Illumina人工智能实验室副总裁兼人类遗传学家Kyle Farh开发了用于研究人类基因组的人工智能工具。

“进化不允许它们长时间存在。由于它们非常罕见,临床实验室通常再也不会看到这种变异。” Illumina人工智能实验室副总裁兼人类遗传学家Kyle Farh说,“在这种情况下,很难拿一个非编码变异并声称它能解释患者的疾病。”

缺乏识别问题变异所需的工具。为了填补这一空白,Farh和他的团队开发了一种深度神经网络——PromoterAI,能够准确识别导致基因表达失调的启动子变异。该模型发表在《科学》杂志上,估计启动子突变占遗传疾病的6%。

“与罕见疾病遗传学的联系非常令人印象深刻且有说服力,”慕尼黑工业大学的计算生物学家Fabian Theis(未参与该研究)表示,“这就是许多这些突变往往产生强烈影响的地方。”

Farh多年来一直热衷于研究非编码基因组,并开发了人工智能工具来理解剪接和错义变异的后果。受到这些模型性能的启发,他决定构建PromoterAI。Farh及其团队首先将启动子周围的DNA序列输入到模型中,训练网络预测变异如何影响DNA可及性、组蛋白修饰以及酶与DNA的相互作用,所有这些都对基因表达有贡献。为了使模型更加稳健,研究人员引入了Genotype-Tissue Expression v8 (GTEx) 队列的数据,这是一个包含驱动基因表达至极端水平的罕见非编码启动子变异的数据库。该数据库提供了800多个个体的全基因组序列和RNA水平配对数据,从而帮助模型学习预测启动子变异是否会改变基因表达。

接下来,Farh希望测试PromoterAI在从未遇到过的队列中的表现。他引入了UK Biobank的信息,其中包括超过50,000名参与者的全基因组序列和血液血浆蛋白水平。该模型准确地从基因组中挑选出大幅改变蛋白表达的启动子变异。在稀有变异队列中进行测试时,PromoterAI的预测结果仍然良好。

为了使该工具更适用于医学,Farh及其团队在包含基因表达水平和临床结果配对信息的数据集上进行了测试。他们观察到它可以识别影响常见生物标志物(如肝酶和胆固醇水平)的启动子变异。

Farh及其团队的主要目标之一是更好地了解罕见遗传疾病的原因。“目前,对于罕见疾病,仅查看蛋白质编码序列,我们就能诊断大约三分之一的病例。因此,我们必须解释那些遗漏的病例,”他说,“我们怀疑其中许多可以通过非编码突变来解释。” 当团队将PromoterAI应用于受罕见疾病或癌症影响的患者队列时,他们观察到启动子变异占负担的6%。结合剪接变异后,患病率上升至20%。

Farh已经开始研究其他非编码元素,如增强子和microRNA靶位点,以及它们对人类健康的贡献。“这些元素也非常保守,强烈表明这些区域的突变绝对会导致穿透性强的罕见疾病或癌症,”他说。

根据Theis的说法,这是理解DNA语言的一个跳板。“为什么只看启动子变异?” 他说,“人们现在可以轻松访问这些模型并将它们串联起来,提出更复杂的问题。”


(全文结束)

声明:本文仅代表作者观点,不代表本站立场。

本页内容撰写过程部分涉及AI生成(包括素材的搜集与翻译),请注意甄别。

7日热榜