新型AI模型有望加速罕见病诊断
popEVE可识别最可能导致严重疾病和死亡的基因变异
凯瑟琳·卡鲁索,哈佛医学院
2025年11月24日
亮点
- 一种名为popEVE的新AI模型可以预测患者基因组中每个变异导致疾病的概率。
- 研究团队正在临床环境中测试popEVE,以确定它是否能加速对罕见单变异遗传病的准确诊断。
- 该工具还可帮助研究人员识别用于治疗遗传疾病的新型药物靶点。
每个人体内都有数以万计的微小DNA遗传变异,这些变异影响着细胞构建蛋白质的方式。
然而,在特定的人类基因组中,只有少数这些变化可能会以导致疾病的方式改变蛋白质,这就提出了一个关键问题:科学家如何在大量遗传变异的"大海"中找到致病的"针"?
多年来,科学家们一直在进行全基因组关联研究和开发人工智能工具来解决这个问题。现在,哈佛医学院研究人员及其同事开发的一种新AI模型进一步推动了这些努力。该模型名为popEVE,为患者基因组中的每个变异生成一个分数,表示其导致疾病的概率,并将变异置于一个连续谱上。
在11月24日发表在《自然遗传学》杂志上的一篇论文中,科学家们展示了popEVE能够预测变异是良性还是致病性(导致疾病的),以及哪些变异会导致儿童期或成年期死亡。
该模型能够识别出100多个导致未确诊罕见遗传病的新变异。
哈佛医学院Blavatnik研究所系统生物学教授、Broad研究所副研究员、论文共同资深作者黛博拉·马克丝(Debora Marks)表示:"我们的目标是开发一种按疾病严重程度对变异进行排序的模型——为个人基因组提供优先级明确、具有临床意义的视图。"
研究团队希望popEVE能帮助临床医生更快、更准确地诊断单变异遗传病,特别是罕见病。该模型还可用于识别遗传疾病的新型药物靶点。
该工具补充了哈佛医学院社区在开展研究、构建AI工具以及参与全国合作以改善罕见病诊断和治疗方面的努力。
将EVE转变为popEVE
随着基因组测序变得越来越普及,医生能够获取越来越多关于患者遗传变异的信息。
然而,对于与疾病关联尚不明确的变异,确定哪些变异是导致患者病情的原因往往耗时、效率低下,有时甚至徒劳无功。因此,许多患有罕见或独特遗传疾病的患者多年来一直未得到确诊。
几年前,马克丝实验室开发了一种名为EVE的生成式AI模型,该模型利用来自不同物种的深度进化信息来学习生物学中高度保守的突变模式。EVE随后可以预测人类基因中的变异如何影响蛋白质功能。
但研究人员表示,EVE无法轻松比较不同人类基因上的变异,以确定哪些变异对健康最为有害。近年来出现的其他变异预测模型也是如此。
马克丝实验室的研究员、新论文的主要作者罗斯·奥伦布赫(Rose Orenbuch)表示,研究团队认为,找到一种更好的方法来比较不同基因上的变异,可能有助于临床医生在尝试诊断和治疗患者时确定应优先研究的变异。
为了创建popEVE,研究人员在EVE基础上增加了两个组件:一个大型语言蛋白质模型(该模型从构成蛋白质的氨基酸序列中学习)和捕捉自然遗传变异的人类种群数据。通过这样做,他们能够校准模型,使其为每个变异生成的分数可以在不同基因之间进行比较。
马克丝解释说,由于popEVE结合了跨物种和种内信息,它揭示了变异对蛋白质功能的影响程度以及该变异对人类生理的重要性。
对popEVE进行测试
当研究人员在已记录的变异和案例研究中测试popEVE时,他们发现该模型成功:
- 区分了致病性和良性变异。
- 区分了健康对照组和患有严重发育障碍的患者。
- 确定了变异是否可能导致儿童期或成年期死亡。
- 评估了变异是遗传还是随机发生的,即使没有父母的遗传信息。
重要的是,该模型没有表现出血统偏见,在代表性不足的遗传背景人群中表现不佳,也没有过度预测致病变异的普遍性。
随后,研究人员将popEVE应用于约3万名尚未确诊的严重发育障碍患者队列。
奥伦布赫表示:"这些疾病我们假设是遗传性的,并且基于其严重程度是由单个变异引起的,但尚未找到该变异。"
分析导致约三分之一病例得到诊断。
也许最值得注意的是,该模型识别出了123个与发育障碍相关但先前未被识别的基因上的变异——基本上找到了这些疾病的可能遗传原因。事实上,其中25个基因后来已被其他实验室的研究独立证实会导致这些疾病。
将popEVE引入临床
马克丝及其同事目前正在努力使popEVE可供临床医生和研究人员在现实世界中使用和验证。
科学家可以通过在线门户访问popEVE。
该团队还与包括波士顿儿童医院儿童罕见病协作组织、费城儿童医院人类遗传学部以及威康桑格研究所合作的英国基因组学(Genomics England)等组织合作。
马克丝报告称,西班牙巴塞罗那国家基因组分析中心(Centro Nacional de Análisis Genómico)的一位临床研究员-研究人员一直在使用popEVE来解读其患者的变异——这些信息帮助他做出了几例罕见病诊断。
奥伦布赫表示:"我觉得我们离popEVE在日常诊断遗传疾病的流程中发挥作用又近了一步。"
她补充说,她对模型对那些无法通过标准方法获得诊断的患者的潜力特别兴奋。
她说:"这些案例中我们必须在已知疾病基因之外寻找,而popEVE已经找到了许多候选基因。"
研究团队指出,虽然popEVE需要进一步验证以确保其在临床广泛应用前的安全性和准确性,但他们希望它最终能提高临床医生使用计算模型进行遗传诊断的信心。
研究人员还将popEVE分数整合到现有变异和蛋白质数据库中,如ProtVar和UniProt,这将使全球科学家能够使用该模型来比较不同基因上的变异。
研究人员指出,通过精确定位罕见或复杂疾病的遗传根源,popEVE还可能为药物开发识别新的靶点和途径。
马克丝表示:"我们认为,基于预测的疾病严重程度对变异进行优先排序将提高诊断几率,并最终为更好的治疗和药物发现铺平道路。"
改编自哈佛医学院新闻报道。
【全文结束】

