通过结合深度进化信号与人类群体数据,popEVE模型提供了一种识别最具破坏性基因突变的新方法。这揭示了先前隐藏的致病基因,并为临床医生提供了一种强大的新方法,用于在先前未解决的病例中优先考虑基因变异。
研究:人类疾病遗传学的全蛋白质组模型。图片来源:Rost9/Shutterstock.com
在最近发表于《自然·遗传学》的一项研究中,一组研究人员通过整合深度进化信号与人类群体约束,推进了人类蛋白质组范围内变异效应的预测,使临床基因组学能够根据严重程度对错义变异进行排序。
为什么当前的变异评分使罕见病患者失望
约四分之一的罕见病患者即使经过全外显子组测序(WES),也无法获得基因诊断,使家庭无法得到答案或治疗方向。临床医生必须在每个基因组中筛选数百万个变异。然而,大多数计算工具仅比较单个基因内的变化,而非跨蛋白质比较,这使得理解变异的严重性变得困难。
深度进化保留了对适应度至关重要的特征,而人类群体变异则揭示了基因特异性约束。整合两者可以根据生物体层面的影响对前所未见的错义变化进行排序,指导单例病例、分诊和更准确的咨询。
需要进一步研究来开发校准的、全蛋白质组范围的评分,以区分良性变异和真正有害的变异,从而在临床和研究环境中加速全球罕见病诊断。
训练popEVE对所有蛋白质的突变进行评分
研究人员构建了群体校准的进化变分模型集成(popEVE),这是一种全蛋白质组评分模型,通过整合深度进化信息和人类群体约束,对跨基因的错义变异进行排序。
进化证据源自两个无监督蛋白质模型:变异效应进化模型(EVE),一种在多序列比对上训练的贝叶斯变分自编码器(VAE);以及进化尺度建模1变体(ESM-1v),一种在蛋白质序列上训练的大型语言模型(LLM)。
通过潜在高斯过程引入群体约束,该过程从英国生物银行(UKBB)和基因组聚合数据库(gnomAD)中学习进化评分与错义不耐受性之间的关系。为最小化祖先偏差,该模型使用粗略的存在/不存在指示器(存在vs不存在),而非等位基因频率。
该模型使用ClinVar标签和深度突变扫描(DMS)与领先预测器(AlphaMissense、贝叶斯有害性(BayesDel)、稀有外显子变异集成学习器(REVEL))进行性能基准测试,然后在罕见病队列中进行评估。来自约31,000个三重奏的严重发育障碍(SDD)元队列的新发错义(DNM)调用与未受影响的兄弟姐妹对照进行了对比,而解码发育障碍(DDD)子集的WES评估了可分离性。
两个组件的高斯混合拟合到变异中定义了严重性阈值,严重切割点设在-5.056(有害组件的可能性为99.99%)。使用蛋白质数据库(PDB)条目量化了与相互作用伙伴的结构接近性,以提供顶级替代的上下文。
证据表明popEVE在临床中优于顶级预测器
与领先预测器相比,popEVE在捕捉疾病严重性方面表现更好。与成年死亡相关的致病变异比与儿童死亡相关的致病变异具有更有害的评分。与AlphaMissense、BayesDel或REVEL相比,评分也能更准确地区分发病年龄。在SDD元队列中,DNM评分向更高有害性方向移动,与对照相比,富集度在严格阈值下增加。高斯混合建立了-5.056的严重切割点(99.99%的可能性)。低于此阈值的变异在病例中富集约15倍,而中等评分富集约5倍;良性范围评分符合预期。
在UKBB中,96%的个体不携带严重致病的错义变异,大多数人有零到五个中等变异,表明popEVE在一般人群中不会过度预测严重性。针对已诊断的SDD病例,popEVE实现了最佳的平均精度,并在任何给定的假阳性率下比比较器召回更多病例。对于WES,该模型将病例与对照区分开来,并避免在UKBB中夸大致病负担,而替代方法不必要地标记了许多具有同样严重变异的人。
该框架还可以在没有父母基因组的情况下优先考虑可能的因果变异。在513名具有严重DNM的个体中,98%的个体将该变异评为其外显子组中最有害的。每个人选择顶级变异仍然恢复了仅通过DNM阈值确定的95%的基因。当存在因果DNM时,popEVE比AlphaMissense、BayesDel或REVEL更频繁地将其排名高于所有稀有遗传替代品。
用于发现,popEVE使用两种互补方法(变异阈值和基因折叠)在SDD队列中识别出410个候选基因,恢复了94%先前报告的错义识别基因和123个新候选基因。这些新变异均未出现在UKBB或gnomAD中。功能和网络分析支持这一点:新基因显示出与已知与发育障碍相关的基因的物理相互作用,并在基因本体论(GO)过程和胎儿大脑表达中表现出相似的富集。结构映射增加了可信度:91%的严重替代位于相互作用伙伴8Å范围内。
例子包括真核翻译终止因子1(ETF1)(在核糖体复合物中靠近天冬酰胺-异亮氨酸-赖氨酸-丝氨酸(NIKS)和甘氨酸-甘氨酸-谷氨酰胺(GGQ)基序的R68L和R192C)、真核翻译起始因子4A同工型2(EIF4A2;Q60K接触腺苷一磷酸(ANP)),以及核小体重塑和去乙酰化酶(NuRD)复合物成员组蛋白去乙酰化酶2(HDAC2;足部口袋中的M31R)和组蛋白结合蛋白视网膜母细胞瘤结合蛋白4(RBBP4;在转移相关蛋白1(MTA1)界面的H373R)。
另一个例子是钙门控钾通道复合物钾钙激活通道亚家族N成员2(KCNN2;在苏氨酸-缬氨酸-甘氨酸-酪氨酸-甘氨酸(TVGYG)孔中的I637F)与钙调蛋白1(CALM1;破坏钙离子(Ca2+)结合的D24Y)。对照中的假阳性较低;基因折叠未发现显著命中,只有0.5%的对照个体携带严重DNM。
通往更快、更清晰罕见病答案的新路径
popEVE证明,整合深度进化与人类约束能够实现校准的、全蛋白质组范围的错义变异严重性排序,适用于临床遗传学。该方法区分了儿童致死性和成人发病的致病性,在严重发育障碍队列中富集真正有害的DNM调用,并避免在群体数据集中过度调用负担。
它还从全外显子组数据中召回已诊断病例,并在没有父母基因组的情况下优先考虑可能的因果变异,同时在结构和网络上下文中浮现出可信的新基因。随着测序在全球范围内扩展,具有严重性意识、最小偏差的评分可以指导诊断、咨询和研究分诊,为全球家庭提供更快的答案,并实现罕见疾病的可扩展发现。
期刊参考文献:
- Orenbuch, R., Shearer, C. A., Kollasch, A. W., Spinner, A. D., Hopf, T., van Niekerk, L., Franceschi, D., Dias, M., Frazer, J., & Marks, D. S. (2025). Proteome-wide model for human disease genetics. Nat Genet. DOI: 10.1038/s41588-025-02400-1.
【全文结束】

