研究人员开发了一种人工智能模型,该模型能够识别人类蛋白质中哪些突变最可能导致疾病,即使这些突变以前从未在任何人身上见过。
这个名为popEVE的模型是使用来自数十万不同物种和人类群体遗传变异的数据创建的。庞大的进化记录使该工具能够看到大约20,000个人类蛋白质中的每一部分对生命至关重要以及哪些可以容忍变化。
这使得popEVE不仅能够识别致病突变,还能跨整个身体对它们的严重程度进行排名。哈佛医学院和巴塞罗那基因组调控中心(CRG)的研究人员今天在《自然·遗传学》杂志上发表的这一发现,可能会改变医生诊断遗传疾病的方式。
每两个罕见病患者中就有一人从未得到明确诊断。popEVE可以通过帮助医生首先关注最具破坏性的变异来改变这一状况。另一个好处是它可以仅使用患者的遗传信息工作。这对资源有限的医疗保健系统中的罕见病医学具有重要意义,使诊断比以前更快、更简单、更便宜。
"诊所并不总是能获得父母的DNA,许多患者是独自前来的。popEVE可以帮助这些医生识别致病突变,我们已经从与诊所的合作中看到了这一点,"该研究的共同通讯作者、基因组调控中心研究员Mafalda Dias博士说。
了解基因突变及其影响
每个人的基因组都包含许多使其独特的微小差异。这包括错义突变,即改变蛋白质中一个氨基酸的变化。许多是无害的,但有些会导致严重疾病或障碍。挑战在于确定哪些是良性的,哪些是有害的。
然而,并非所有有害突变的危害程度都相同。有些导致轻微症状,有些导致严重残疾,有些在儿童期致命。许多AI工具可以预测突变是否危险,但不提供这种行为的滑动比例。
对于"像一个一样罕见"的疾病,没有病史可供参考。即使对世界全部人口进行测序,这些患者的突变也将是全新的。依赖于在患者群体或大型队列中发现模式的传统方法无法帮助这些一次性案例。
进化如何为popEVE模型提供信息
这就是为什么哈佛医学院的Debora Marks和基因组调控中心(CRG)的Jonathan Frazer和Dias领导的团队转向进化的原因。
在数十亿年的过程中,地球上的进化已经进行了无数次实验,测试蛋白质可以容忍哪些变化以及哪些变化过于有害而无法生存。计算模型可以通过比较许多不同物种的蛋白质序列来学习哪些氨基酸位置对生命至关重要。
这就是EVE(变异效应的进化模型)背后的想法,这是研究人员在2021年发布的算法。它使用进化模式将人类疾病基因中的突变分类为良性或有害。EVE的表现与许多基于实验室的实验一样好,甚至更好,并且此后已被用于临床遗传学以帮助解释不确定的变异。
但尽管EVE可以判断基因内突变的影响,但其评分在基因之间不可直接比较。一个蛋白质中看起来严重的变异无法与另一个蛋白质中的变异进行公平比较。这是一个问题,因为医生需要知道患者基因组中哪个突变最具破坏性。
popEVE的改进和验证
EVE家族的最新模型popEVE通过结合进化数据与英国生物银行和gnomAD(两个庞大的数据库)的信息解决了这个问题。这些数据集显示了健康人群中存在的变异,帮助模型校准其对人类的预测。
结果是第一个能够有意义地跨整个人类蛋白质组(人类基因组中编码的大约20,000种蛋白质的完整集合)对突变进行排名的模型。现在,基因A中的突变可以直接与基因B中的突变在同一严重性尺度上进行比较。这使医生首次能够首先关注可能最具破坏性的变异。
为了验证popEVE,研究人员分析了来自31,000多个受严重发育障碍影响的儿童家庭的遗传数据。在98%已经确定因果突变的病例中,popEVE正确地将该变异排名为儿童基因组中最具破坏性的。它的表现优于DeepMind的AlphaMissense等最先进的竞争对手。
当研究人员寻找新的候选疾病基因时,popEVE发现了123个以前从未与发育障碍相关联的基因。许多在发育中的大脑中活跃并与已知的疾病蛋白质发生物理相互作用:其中104个仅在一两个患者中观察到。
解决遗传工具中的偏见和局限性
popEVE的一个优势是它避免惩罚那些在遗传数据库中代表性不足的人群,这些数据库主要偏向欧洲血统的人群。这是其他工具中的一个问题,这些工具仅因为以前没有见过这些变异就标记可能的致病突变。
popEVE通过平等对待所有人类变异来避免这种情况。通过询问突变是否以前在人类中见过,无论是在特定人群中见过一次还是在欧洲人群中见过一千次,它预测的假阳性更少。
"没有人应该仅仅因为他们的社区在全球数据库中没有得到充分体现而得到可怕的结果。popEVE有助于解决这种不平衡,这是该领域长期以来缺少的东西,"该研究的共同通讯作者、基因组调控中心研究员Frazer博士说。
研究作者强调,popEVE仅解释改变蛋白质的DNA变化。存在许多其他类型的突变,因此它不能涵盖所有类型的遗传变异。它也不能替代临床判断。医生必须使用病史和症状分析来辅助诊断。
更多信息:人类疾病遗传学的蛋白质组范围模型,《自然·遗传学》(2025)。DOI: 10.1038/s41588-025-02400-1
期刊信息:《自然·遗传学》
提供方:基因组调控中心
引用:AI从生命之树中学习以支持罕见病诊断(2025年11月24日)
【全文结束】

