AI如何精准定位疾病的遗传病因
文章 | 作者:Julie Langelier | 2026年3月23日 | 阅读时间17分钟
致力于开发新技术的格拉德斯通研究所科学家——包括计算机端的AI模型和实验室的分子工具研发者——正联合攻克科学界最艰巨的挑战之一:确定人类基因组中哪些特定变化会导致疾病。
本文系科学家运用并开发AI工具推进生物医学研究的系列报道之一。订阅我们的电子报,即可获取最新研究动态。
你的基因组包含所有遗传的DNA序列——约30亿个生物密码字母。如今仅需数百美元即可完成个人基因组测序,这意味着你能获知自身独有遗传蓝图的精确序列。
尽管人类DNA相似度高达99.9%,但剩余微小差异包含数百万个基因变异。这些差异影响着身体机能、药物反应以及罹患特定疾病的风险。
“终极目标是患者就诊时进行基因组测序,医生据此解读其基因变异的临床意义:是否与当前症状相关,是否会增加特定疾病风险,”格拉德斯通研究所研究员塞思·希普曼博士表示。
然而当前科学界尚未完全破译基因组密码,无法确定30亿个DNA字母中哪些具有关键作用。
“我们即将进入全民基因测序时代,但基因序列产生的大部分信息仍无法解读,”格拉德斯通研究所所长迪帕克·斯里瓦斯塔瓦博士指出,“数百万基因变异中仅有少数与疾病相关,而我们尚无法精确定位这些关键变异。”
为何精准识别疾病遗传病因如此困难?部分原因在于潜在DNA变异数量过于庞大,科学家难以逐一验证。在无法优先筛选关键选项的情况下,研究进展长期停滞。
此时,人工智能(AI)将彻底改变这一局面。
“通过AI预先预测实验结果,我们可将发现速度提升百万倍。”
——凯蒂·波拉德博士
“传统实验室需耗时数年完成的实验,我们能在计算机上一日内运行数千次,”格拉德斯通数据科学与生物技术研究所所长凯蒂·波拉德博士解释,“通过AI预判实验结果,我们可将发现速度提升百万倍。”
波拉德及其团队正致力于运用AI解码完整基因组,首次真正理解其生物学意义。
“本质上我们正在建立查询表,”格拉德斯通研究所研究员维贾伊·拉马尼博士表示,“当患者就诊时,我们能定位其基因变异并评估其患病概率。”
AI与实验室的深度融合
在格拉德斯通研究所,计算机技术与实验科学领域的科学家联合构建了创新平台:将先进计算模型与新型实验工具结合,共同验证DNA工作机制假说。
该平台的核心组件是波拉德团队设计的AI模型。该模型可分析数百万基因组序列,预测最可能导致疾病的DNA变异。
由于AI预测存在误差,这些结果需在希普曼实验室进行验证。该团队发明了新型基因编辑技术,能在单个培养皿中同时编辑数百至数千个人类细胞的DNA。
随后,拉马尼团队开发的新型测量技术对编辑后的细胞进行分析:既确认每个细胞接收的编辑内容,又测量编辑对细胞功能的影响。
科学家利用实验数据重新训练AI模型,通过反馈预测准确性使其不断优化,从而开启新一轮迭代。
“此前无人在此规模开展尝试,”波拉德强调,“过去仅能实现单点或少量DNA编辑,而我们团队将解析整个基因组,理解每个DNA字母的功能。”
这一联合方案历经艰难探索。波拉德、希普曼与拉马尼持续讨论逾一年才达成共识。
“实验室间的无缝协作至关重要,”拉马尼指出,“我们反复探讨如何优化技术以突破领域瓶颈。通过共同目标,我们各自突破实验室极限,最终实现前所未有的成就。”
基因组学快速指南
科学家曾认为疾病源于基因损伤。2000年代初完成人类基因组测序时,他们期待借此理解疾病成因,却意外发现:多数疾病相关基因变异并不位于蛋白质编码基因内,而是存在于非编码DNA区域。
非编码DNA占基因组98-99%,如同控制面板调控基因的启用时间、位置及强度。若将基因比作摩天大楼的灯光,非编码DNA则是控制开关与调光器。因此,疾病通常并非由“损坏的灯泡”引发,而是“故障开关”——例如导致灯光异常开启或亮度不足。
研究非编码DNA是基因组学最棘手难题。
其规模庞大且仅在特定细胞类型活跃,实验室难以模拟。最大挑战在于DNA在细胞核内以3D结构精密折叠:一段非编码DNA可影响相距数十万字母的基因。当DNA折叠时,二者空间位置邻近;但传统测序技术将DNA展平为线性序列,关键空间关系随之消失。
这正是AI的用武之地——它能识别人类无法察觉的海量复杂数据中的微妙规律。
从百万可能到千级验证
格拉德斯通革命性平台始于波拉德实验室的深度学习AI模型。深度学习使计算机通过海量样本自主识别规律,并据此预测未知数据。
该技术称为“深度”学习,因其采用多层处理架构:每层执行简单操作,但组合后可学习复杂规律——如同工厂流水线各环节完成基础工序,最终产出精密产品。
“尽管同事开发了先进实验工具,但验证所有DNA工作机制假说仍不现实,”波拉德表示,“AI建模的价值在于:我们能在计算机完成万亿次实验,精准筛选值得实验室验证的目标。”
该模型基于百万级健康个体与患者的DNA序列训练。输入特定DNA序列后,AI可预测细胞功能:哪些基因激活/抑制、3D折叠状态、关键非编码DNA区域等。这对罕见病研究尤为重要——患者功能性样本稀缺,但唾液或血液即可完成低成本测序。
研究人员还能探查模型的推理逻辑。通过要求AI展示决策过程,团队可获得DNA调控细胞行为的新洞见。
“我们的模型已掌握DNA编码的规则,”波拉德感叹,“历经多年缓慢前行,如今借助AI模型,我们突然以闪电速度取得突破。”
如今团队可在计算机进行基因组编辑实验:输入模型认为重要但未经研究的DNA序列(如删除特定片段),模型能准确预测细胞变化。
以先天性心脏病为例:数百万DNA字母可能参与致病。波拉德实验室运用AI将目标缩小至最可能相关的数千个变异。
“我们能将范围压缩两个数量级,从百万降至千级,”波拉德解释,“但用传统基因编辑逐一验证每个预测需耗时两月/次,显然无法连续完成千次实验。”
此时希普曼实验室的技术派上用场:他们开发了同步编辑数千细胞DNA的新方法,整个流程仅需1-2天。
千次编辑,单次实验
基因组编辑是在活细胞内精准修改DNA的技术——删除、添加或替换特定序列。通过改变基因组并分析效应,科学家可理解细胞工作机制及疾病发生原理。
2012年,格拉德斯通研究所研究员詹妮弗·杜德纳博士共同发现著名基因编辑技术CRISPR,使该技术在全球实验室普及化。
传统流程如下:科学家组装分子剪刀(切割DNA)和靶向分子(如GPS定位基因组目标位点),还需提供模板DNA用于插入新序列。
完成编辑后需进行克隆:分离细胞并培养成单克隆群体,再提取各克隆DNA进行测序验证。
整个流程通常耗时六周。若需测试多种DNA编辑,必须重复该过程。
“现在我们能通过单次实验同步验证数千个基因组编辑。”
——塞思·希普曼博士
“我们简化并加速了流程,”希普曼表示,“将所有分子组件整合为单一载体,批量导入细胞培养皿,使每个细胞接收不同编辑。”
希普曼团队利用细菌免疫系统“逆转录子”(微型DNA工厂),创新性融合CRISPR与逆转录子技术,将其打包为环状质粒。每个质粒携带独特基因编辑指令。
质粒进入细胞后,分子剪刀切割DNA,逆转录子则在细胞内直接生产模板DNA用于修复。
“所有编辑组件集成于质粒至关重要,”希普曼解释,“该系统使我们能在细胞池中同步进行数百至数千次编辑,确保每个细胞获得完整编辑组件且互不干扰。”
相较之下,当模板DNA与编辑材料分开递送时,易出现细胞接收错误组合或缺失组件的问题。
“我们的目标是避免逐次实验,设计一次性验证AI预测千级规模的方法,”希普曼说,“现在我们能通过单次实验同步验证数千个基因组编辑。”
希普曼还跳过了耗时的克隆步骤,采用拉马尼实验室开发的新型测量技术:无需分离细胞即可分析全部细胞,既确定各细胞接收的编辑类型,又评估编辑对细胞功能的影响。
终获确证
传统方法中,科学家难以证明DNA变更直接导致特定结果——如同看见众多开关与亮灯,却无法确定哪个开关控制哪盏灯。
这源于传统测序将DNA切割为碎片再计算机重组,丢失了单个分子的关键信息。
“DNA不仅存储构建身体的指令,还包含决定何时启用这些指令的控制系统,”拉马尼指出,“我们实验室正开发读取该控制系统的工具。”
其团队设计的新测序方法SAMOSA可读取完整长片段DNA。单次检测即可同步观察:DNA编辑位点、激活基因、活跃非编码DNA区域。这意味着能直接捕捉开关与受控基因的关联,无需拼接多个实验数据。
若传统测序如同拆毁整座城市后从废墟推断开关-灯泡连接,SAMOSA则让科学家步入单栋建筑,亲眼目睹开关与台灯的实时联动。
“该技术是重大突破,使我们首次建立此前不可能的直接关联:明确特定非编码DNA是否在特定细胞类型活跃,若活跃则精准定位其调控的基因,”斯里瓦斯塔瓦评价道。
借助此工具,科学家终于超越统计关联层面,实时观察非编码DNA如何影响特定基因并导致疾病。
扩展协作网络
格拉德斯通其他科学家也加入该迭代研究。克里斯蒂娜·特奥多里斯博士带来其开发的AI模型Geneformer,可预测单细胞内基因活性。
该模型聚焦蛋白质编码基因:改变特定基因后观察细胞状态变化。她与团队在实验室或希普曼团队协助下验证预测,常使用拉马尼的测量工具分析结果。
“这有助于破解疾病核心谜题:若某基因在全身表达,为何基因变异仅导致心脏等特定器官病变?”特奥多里斯解释。
其研究可定位致病关键基因,指导临床医生筛查特定器官并靶向治疗。
持续优化的闭环
研究人员完成“AI预测→基因编辑→效应读取”循环后,将新发现反馈至起点。
“我们正为AI模型注入强大力量,”拉马尼表示,“若模型仅基于《纽约时报》内容训练,其心脏病知识必然匮乏。因此我们通过基因编辑模拟心脏病实验,读取编辑后果并重新训练模型。”
目标是通过高质量实验数据迭代构建更优AI模型,使其做出更精准预测。
“我们并非仅验证大概率成功的预测来证明模型优越性,”希普曼强调,“而是利用模型筛选最具价值的实验方向,从而推动AI与分子技术共同突破当前疾病认知的不确定性边界。”
格拉德斯通研究人员正通过实验生成高质量数据,持续优化下一代AI模型。
协作攻克单体无法解决的难题
美国每31名儿童中有1名自闭症患者——相当于每两个教室就有1名。但这些儿童中仅20%明确知晓遗传病因。
格拉德斯通平台有望最终提供遗传诊断,指导医疗决策、评估其他健康风险(如癫痫),并指向最有效个体化疗法。
“我确信我们将破解此难题,首次解码患者DNA使其改写遗传命运。”
——迪帕克·斯里瓦斯塔瓦博士
从先天性心脏病到亨廷顿病,理解个体基因组将为众多疾病带来早期筛查、预防策略及定制化治疗。
“通过构建解码DNA生命语言的平台,我们将最终实现疾病预测与早期干预,”波拉德展望道。
格拉德斯通科学家正以独特方式融合变革性技术,首次全面解读人类基因组,开创疾病预防与治疗新途径。
这些努力不仅拓展了疾病防治新方法,更以史无前例的速度推进:过去从概念提出到临床试验需数十年,如今斯里瓦斯塔瓦预估可缩短至5年内。
“要实现此种基因组解读所需的技术,全球唯格拉德斯通具备,”他强调,“这些技术在此发明,我们创造性整合它们,首次实现前所未有的基因组解读。我确信我们将破解此难题,首次解码患者DNA使其改写遗传命运。”
【全文结束】

