在基因组学领域的一次重大飞跃中,谷歌于周三推出了一款强大的人工智能模型,该模型可以预测单个DNA突变如何影响调控基因活动的复杂机制。
这款名为AlphaGenome的工具,不仅覆盖了基因组的编码区域,还涵盖了非编码区域,以前所未有的方式提供了一个统一的变异效应视图。它以单碱基分辨率解码长距离基因组分析中的突变影响,兼具速度、规模与前所未有的深度。
该模型一次处理多达100万个碱基对,并预测数千种分子特性,包括基因表达、剪接模式、蛋白质结合位点以及跨多种细胞类型的染色质可及性。这是首次通过一个AI系统联合建模如此广泛的调控特征。
AlphaGenome的架构首先使用卷积层来识别DNA序列中的短模式,然后应用变换器(transformers)在整个遗传密码范围内共享信息。最后一组层将这些学习到的模式转化为关于各种基因组特性的预测。
在训练过程中,所有针对单个序列的计算都分布在多个相互连接的张量处理单元(TPUs)上,从而实现高效的大规模处理。仅用四小时便完成了一个单一模型的训练,而其计算预算仅为前代模型Enformer的一半。
作为Enformer的继任者,并与AlphaMissense相辅相成,AlphaGenome是唯一一款能够联合预测所有评估分子模式的模型,在26项基准测试中有24项表现优于或匹敌专用模型。它基于海量公开数据集进行训练,包括ENCODE、GTEx、4D Nucleome和FANTOM5。
单一API,更丰富的洞察
与早期模型在序列长度和分辨率之间进行权衡不同,AlphaGenome两者兼顾且精确。它捕捉长距离基因组背景并提供单碱基水平的预测,解锁了从疾病生物学、罕见变异研究到合成DNA设计等领域的深刻见解。
这款新模型的一个突出特点是其变异评分系统,它能高效对比突变和未突变DNA,评估跨模式的影响。此外,它还具备剪接结点建模功能,这是首个预测RNA剪接中断的方法,与囊性纤维化和脊髓性肌萎缩症等疾病相关联。
在合成生物学领域,AlphaGenome可以帮助设计选择性激活基因的调控序列。例如,在神经细胞中激活某些基因,而在肌肉细胞中不激活。该模型还可用于研究具有重大生物学效应的罕见变异,例如导致孟德尔疾病的那些变异。
在一个测试案例中,AlphaGenome准确预测了与白血病相关的突变如何引入MYB DNA结合基序,从而激活TAL1基因,这反映了T细胞急性淋巴细胞白血病中已知的机制,并展示了其将非编码变异与致病基因联系起来的强大能力。
并非完美,但奠定基础
尽管AlphaGenome标志着一项重大进步,但它并未被设计或验证用于个人基因组解释或临床用途。它在模拟超远距离调控交互(尤其是超过100,000个DNA字母的距离)方面仍面临挑战,并且难以完全捕捉细胞和组织特异性模式。
不过,研究人员表示,它为未来的扩展奠定了坚实基础,有望适应更多物种、模式和实验室特定数据集。AlphaGenome现已通过AlphaGenome API面向非商业用途开放预览版。谷歌邀请全球研究人员探索使用案例、提出问题并分享反馈。该AI工具的预测结果仅供研究用途。
谷歌表示:“我们希望AlphaGenome能够帮助加深对DNA中编码的复杂细胞过程的理解,并推动基因组学和医疗保健领域的新发现。”
(全文结束)

