在基因组学领域的重大飞跃中,谷歌于周三推出了一款强大的人工智能模型,可以预测单个DNA突变如何影响调控基因活性的复杂机制。
这款工具被命名为AlphaGenome,覆盖了基因组的编码和非编码区域,以前所未有的方式提供了变异效应的统一视图。它为长距离基因组分析带来了碱基分辨率的洞察力,以速度、规模和前所未有的深度解码突变的影响。
该模型可在单次处理中分析多达100万个碱基对,并预测数千种分子特性,包括基因表达、剪接模式、蛋白质结合位点以及跨多种细胞类型的染色质可及性。这是首次能够通过一个AI系统联合建模如此广泛的调控特征。
AlphaGenome的架构首先使用卷积层来识别DNA序列中的短模式,然后应用Transformer在整个遗传密码范围内共享信息。最后一组层将这些学习到的模式转化为跨各种基因组特性的预测。
在训练过程中,单个序列的所有计算分布在多个相互连接的张量处理单元(TPU)上,从而实现高效的大规模处理。单个模型仅用四小时完成训练,使用的计算资源仅为前代模型Enformer的一半。
作为Enformer的继任者,并补充了AlphaMissense,AlphaGenome是唯一能够联合预测所有评估分子模式的模型,在26项基准测试中的24项中表现优于或匹敌专门模型。它基于包括ENCODE、GTEx、4D Nucleome和FANTOM5在内的大规模公共数据集进行训练。
单一API,更丰富的洞察
与早期在序列长度和分辨率之间权衡的模型不同,AlphaGenome在两者间都实现了精确处理。它捕捉长距离基因组上下文并提供碱基水平的预测,解锁了疾病生物学、罕见变异研究、合成DNA设计等领域的洞见。
新模型的一个突出特点是其变异评分系统,该系统通过比较突变和未突变的DNA来高效评估跨模式的影响。它还具有剪接位点建模功能,这是一种首次用于预测与囊性纤维化和脊髓性肌萎缩症等疾病相关的RNA剪接中断的方法。
在合成生物学中,AlphaGenome可以帮助设计选择性激活基因的调控序列,例如在神经细胞而非肌肉细胞中激活特定基因。该模型还可用于研究具有重大生物学效应的罕见变异,如导致孟德尔遗传病的那些变异。
在一个测试案例中,AlphaGenome准确预测了一种与白血病相关的突变如何引入MYB DNA结合基序,从而激活TAL1基因,这一结果反映了T细胞急性淋巴细胞白血病中已知的机制,展示了其将非编码变异与致病基因联系起来的能力。
并非完美,但奠定基础
尽管AlphaGenome标志着一项重大进步,但它并未设计或验证用于个人基因组解读或临床用途。它在建模非常远距离的调控交互(尤其是超过10万个DNA字母的距离)方面仍面临挑战,且无法完全捕捉细胞和组织特异性模式。
然而,研究人员表示,它为未来的扩展奠定了坚实基础,有望适应其他物种、模式和实验室特定数据集。
AlphaGenome目前可通过AlphaGenome API以预览形式供非商业用途使用。谷歌正在邀请全球研究人员探索用例、提出问题并分享反馈。该AI驱动工具的预测仅限于研究用途。
“我们希望AlphaGenome能够帮助加深我们对DNA中编码的复杂细胞过程的理解,”谷歌表示,“并在基因组学和医疗保健领域推动新的发现。”
(全文结束)

