新人工智能模型可识别最可能导致重症或死亡的基因变异
每个人的DNA中都存在数以万计的微小基因变异,这些变异影响细胞构建蛋白质的方式。然而在人类基因组中,仅有少数变异会以导致疾病的特定方式改变蛋白质,这引发了一个关键问题:科学家如何在海量的基因变异"干草堆"中找到致病的"针尖"?
多年来,科学家们一直通过全基因组关联研究和人工智能工具来解决这一问题。如今,哈佛医学院研究人员开发出一种名为popEVE的新AI模型,该模型为患者基因组中的每个变异生成致病可能性评分,并将变异置于连续的严重程度谱系中。在11月24日发表于《自然·遗传学》的研究中,科学家证实popEVE能够准确预测变异属于良性还是致病性,并区分导致儿童期死亡与成年期死亡的变异类型。该模型已成功识别出100多种导致未确诊罕见遗传病的新型基因变异。
"我们的目标是开发一种按疾病严重程度对变异进行排序的模型——为个人基因组提供优先级明确的临床意义视图,"哈佛医学院布莱瓦特尼克研究所系统生物学教授、论文共同资深作者黛博拉·马克斯表示。研究团队希望popEVE能帮助临床医生更快速准确地诊断单基因遗传病,尤其是罕见病。该工具还可用于识别遗传性疾病的药物新靶点,助力哈佛医学院社区改善罕见病诊疗的研究努力。
将EVE升级为popEVE
随着基因组测序技术普及,医生能获取的患者基因变异信息日益增多。但对于致病机制不明的变异,确定其与患者病症的关联往往耗时低效。为此,马克斯实验室几年前开发了名为EVE的生成式AI模型,该模型利用跨物种深度进化信息学习生物高度保守的突变模式,进而预测人类基因变异对蛋白质功能的影响。
然而EVE难以比较不同人类基因上的变异健康危害程度,近年出现的其他变异预测模型也存在同样局限。研究团队认为,若能找到跨基因比较变异的新方法,将帮助临床医生确定诊断研究的优先级。首席作者、马克斯实验室研究员罗斯·奥伦布赫表示:"我们需要更优方案来判断哪些变异最可能危害健康。"
为创建popEVE,研究团队在EVE基础上新增两个组件:学习蛋白质氨基酸序列的大语言蛋白质模型,以及捕捉自然遗传变异的人类群体数据。这种改进使模型生成的变异评分可在不同基因间横向比较。马克斯解释道:"popEVE结合跨物种与种内信息,既能揭示变异对蛋白质功能的影响程度,也能评估其对人体生理的重要性。"
popEVE的性能验证
在已知变异和病例研究测试中,popEVE成功实现了:
- 区分致病性与良性变异
- 识别严重发育障碍患者与健康对照组
- 判断变异可能导致儿童期或成年期死亡
- 评估基因变异是遗传还是随机发生(无需父母基因信息)
重要的是,该模型未表现出对遗传背景代表性不足人群的预测偏差,也未高估致病性变异的流行率。研究团队将popEVE应用于约30,000名未确诊严重发育障碍患者的队列分析。"这些疾病我们确信由单基因变异引发,但始终未能找到致病变异,"奥伦布赫指出。分析使约三分之一病例获得确诊,更关键的是,模型发现了123个与发育障碍相关的新致病基因位点——其中25个基因已获其他实验室独立验证。
推动popEVE临床应用
马克斯团队正努力使popEVE可供临床医生和研究人员在实际场景中使用验证。科学家可通过在线门户访问该工具。团队正与波士顿儿童医院儿童罕见病协作中心、费城儿童医院人类遗传学部及威康桑格研究所合作的英国基因组公司等机构开展合作。巴塞罗那国家基因组分析中心的临床研究员已利用popEVE成功诊断多名罕见病患者。
"我们正接近将popEVE应用于日常遗传病快速诊断流程,"奥伦布赫表示。她特别强调该模型对标准方法无法确诊患者的潜力:"这些病例需跳出已知致病基因范围,而popEVE已发现大量候选基因。"研究团队指出,尽管popEVE需进一步验证安全性和准确性才能广泛临床应用,但他们期望该工具最终能提升医生使用计算模型进行基因诊断的信心。
研究人员正将popEVE评分整合至ProtVar和UniProt等现有变异与蛋白质数据库,使全球科学家能跨基因比较变异。马克斯表示:"我们认为,基于预测疾病严重程度对变异进行优先级排序,将提高诊断成功率并最终为更好治疗和药物发现铺平道路。"
【全文结束】

