大约1%的人类基因组编码蛋白质,其余的DNA虽然不直接编码蛋白质,但通过调控数千个基因的活动对蛋白质产生影响。这些非编码序列可能在从癌症到心脏病的多种疾病中发挥重要作用,并可能成为开发具有治愈潜力的新型治疗手段的关键。
谷歌DeepMind的最新模型
为了帮助探索这一潜力,位于伦敦的谷歌DeepMind开发了一种名为AlphaGenome的大规模混合深度学习模型,用于解析非编码DNA部分。该模型可以预测基因的表达水平以及它们如何受到长段DNA上发生的突变的影响。用户可以将多达一百万个DNA字母输入模型以获得数千个预测结果。这克服了以往模型的一个基本限制——通常需要在捕捉长距离效应和实现单字母分辨率之间进行权衡。AlphaGenome的预测对单字母变化非常敏感,使科学家能够预测突变如何影响基因表达。
这个“从序列到功能”的模型能够处理DNA片段并预测多种特性,包括基因表达水平以及它们可能如何受到突变的影响。该模型成功预测了某些非编码突变如何间接激活附近的基因,而这些基因是某种白血病的驱动因素,这一点已在先前的研究中被确认。
AlphaGenome模型基于人类和小鼠的数据进行训练,尚未在其他生物体上进行测试。尽管如此,该模型并非完美无缺;它在识别那些能改变超过10万碱基对远的基因表达的序列时表现不佳。此外,它无法捕捉细胞性质的变化如何影响DNA序列的功能。
“这是该领域的一个里程碑。我们首次拥有一个统一了长距离上下文、碱基级精度并在全系列基因组任务中表现出色的单一模型。” ——纪念斯隆-凯特琳癌症中心的Dr. Caleb Lareau在一份声明中说道。
这段视频最初出现在谷歌DeepMind于2025年6月25日发布的文章《AlphaGenome:用于更好理解基因组的人工智能》中。
超越其他模型
此前的模型如Splice AI或ChromBPNet专注于单一类型的基因组信号。这些模型主要关注个别任务,例如预测基因表达水平或确定外显子如何编码不同的蛋白质。相比之下,AlphaGenome能够在11种模态下进行预测,从而提供对基因组调控的整体视图。
AlphaGenome能够以单碱基对分辨率处理一百万个DNA字母,实现了规模和分辨率上的巨大飞跃。它也是首个能够联合预测剪接位点位置、使用情况、连接点和RNA覆盖的模型。在大多数任务中,AlphaGenome的表现优于通用型和专用型模型。
目前,从事非商业工作的研究人员可以通过DeepMind的服务器访问AlphaGenome。预计未来将进行全面发布。
(全文结束)

