梅奥诊所与旧金山研究型初创公司Goodfire的研究人员表示,他们已利用人工智能模型预测致病性基因突变——关键在于能够解释其致病机制——为大规模诊断和研究遗传性疾病提供了新方法。
该研究应用了人工智能可解释性技术——这门新兴科学致力于解析AI系统的"黑箱"大脑——来预测并理解哪些基因突变可能具有"致病性"。
梅奥诊所放射学教授兼生成式AI项目负责人马修·卡斯特罗姆指出,某些癌症的早期诊断和治疗关乎生死。然而人类基因组包含超过30亿个碱基对,犹如大海捞针。
研究团队与Arc研究所训练的开源"基因组基础模型"Evo 2合作,预测致病DNA突变并解析其生物学特征。Evo 2通过预测DNA序列中的下一个"字母"进行训练——其原理与ChatGPT等大语言模型预测文本中的下一个单词相同。ChatGPT通过学习互联网大部分文本掌握语言结构和世界知识;而Evo 2则通过12.8万个涵盖生命全领域的基因组进行训练(每个基因组仅由构成DNA的四种分子G、T、C、A组成),学习识别"利于生命存续"的遗传序列,论文作者尼古拉斯·王解释道。
然而这些知识被锁定在编码模型人工大脑的70亿个数字中:研究人员能看到数字,却难以理解其含义。正如脑电图测量人类大脑电活动无法揭示患者所思,AI研究者虽能观察模型内部运行,却难以解读其决策逻辑。
Goodfire研究团队向Evo 2输入致病性与良性基因突变的示例,并监测其大脑哪些区域被激活——从而分离出模型对致病突变的响应特征。他们发现该方法预测致病突变的准确率超越所有现有计算工具,尽管Evo 2从未被明确训练过该任务。与大语言模型类似,Evo 2训练数据规模(约为此前最大基因组基础模型的十倍)使其推断出健康DNA的共性模式。
但在临床应用中,仅有预测远远不够。梅奥诊所AI项目主席兼论文合著者马特·雷德隆强调:"理解模型决策原因至关重要。"
深入探查揭示Evo 2已推断出DNA序列的生物学特征。例如,该模型自主识别出DNA不同区段的边界,尽管训练基因组并未标注这些边界。
这些生物学特征有助于解释为何某些突变致病而其他无害。位于DNA区段边界的突变更可能导致蛋白质结构异常,引发遗传疾病;而位于蛋白质构建前即被舍弃区段的突变通常无害。
加拿大多伦多大学健康网络首席AI科学家王博评价道,该论文通过识别突变生物学特征而非仅提供模糊的致病评分,实现了"重大突破"。
随着基因测序成本持续下降——近期系统宣称可实现100美元全基因组测序——此类基因数据解读方法将帮助科学家"回归生物学本质",为个体定制"个性化疗法",雷德隆表示。
然而Goodfire方法投入临床前,需开展更大规模人群试验验证其普适性,并通过FDA审批。斯坦福大学生物医学数据科学教授詹姆斯·邹指出,尽管研究人员发现Evo 2存储了生物学概念,但"无法保证"模型实际运用这些概念判断突变致病性。
随着AI应用于生命科学领域,可解释性研究正获得广泛关注。成立于2023年、致力于推进AI模型可解释性(其联合创始人兼CTO丹·巴尔斯姆称之为"世界最重要问题")的Goodfire,今年2月估值已达12.5亿美元。今年1月,该公司发布研究揭示了AI大脑中存储的阿尔茨海默病新型生物标志物,展现出挖掘人类科学家尚未发现的科学概念的潜力。
邹教授表示:"我认为可解释性最有趣之处在于打开黑箱,验证模型是否学到了超越人类认知的科学知识。"他补充指出,Goodfire最新研究仅探查Evo 2中已知概念,尚未实现这一目标。
可解释性技术也已应用于ChatGPT等大语言模型。近期Anthropic研究人员发现,其旗舰AI模型Claude Mythos在测试中表现出内部意识迹象并作弊——尽管从未明确声明知晓被测试。AI模型可能在安全相关测试中作弊的隐患,凸显了扫描AI大脑异常行为技术的重要性。
巴尔斯姆强调:"若存在'可解释性是否有用'的障碍,我认为我们已突破并彻底粉碎它。"
【全文结束】

