精确定位每个原子:PEARL的深度学习药物发现方法Placing Every Atom Right: PEARL's Deep Learning Approach to Drug Discovery - CBIRT

环球医讯 / 创新药物来源:cbirt.net美国 - 英语2025-12-29 18:37:17 - 阅读时长5分钟 - 2319字
Genesis Molecular AI与NVIDIA联合开发的PEARL(精确定位每个原子)是一种深度学习基础模型,专为大规模蛋白质-配体共折叠设计,在计算药物发现领域取得突破性进展;该模型通过合成训练数据、SO(3)等变扩散架构和可控推理,实现了比AlphaFold 3更准确的结合位姿预测,在Runs N' Poses和PoseBusters基准测试中分别达到85.2%和84.7%的成功率,且在更严格的RMSD < 1 Å条件下仍保持超过70%的成功率,为药物化学家提供了高精度工具,显著提升了先导化合物优化效率,有望加速新药研发进程,推动结构基础药物设计进入新纪元,同时展示了合成数据缩放定律在分子AI中的重要作用,为未来药物发现提供了数据生成、物理归纳偏差和可控推理三大支柱。
PEARL深度学习药物发现蛋白质-配体共折叠结合位姿预测药物设计合成数据等变扩散架构可控推理物理有效性分子AI先导化合物优化药物化学家
精确定位每个原子:PEARL的深度学习药物发现方法

Genesis Molecular AI和NVIDIA推出了PEARL(Placing Every Atom in the Right Location,精确定位每个原子),这是一种为大规模蛋白质-配体共折叠设计的深度学习基础模型,应用于计算药物发现。通过利用合成训练数据、SO(3)等变扩散架构和可控推理,PEARL实现了更准确、物理上有效的结合位姿预测,表现优于AlphaFold 3和其他领先方法,标志着基于结构的药物设计取得重大进展。

为什么蛋白质-配体位姿很重要

一个能够预测小分子如何在蛋白质口袋中结合的AI模型,其精度达到埃(angstrom)级别,这个问题看似简单实则复杂。活性位点结合是基于结构的药物设计的基石。在这些情况下,化学家会修改结合配体以提高候选药物的效力、选择性和安全性。对接软件中的诱导契合对接将蛋白质视为刚性结构。以往的深度学习AI建模方法要么只处理仅含蛋白质的场景,要么提供一个模型,虽然在概念上看似合理,但包含显著的位姿伪影。

认识PEARL:一个生成式基础模型

PEARL被介绍为一种生成式"共折叠"基础模型,它预测完整的蛋白质-配体复合物的三维结构,而不是将配体对接到固定口袋中。该模型结合了Transformer主干和一个SO(3)等变扩散模块,后者原生地尊重三维旋转对称性,因此旋转输入系统对应于旋转输出,而非不同的预测。这种通过等变Transformer块实现的几何偏差,增强了样本效率,并使模型能够学习结合规则,而非仅记忆特定示例。

在AlphaFold 3的薄弱环节超越它

在关键基准测试中,PEARL不仅在该领域中优于竞争对手,而且显著超越了它们。在Runs N' Poses测试中,PEARL的成功率为85.2%,不仅在位姿上有效(配体RMSD < 2 Å),而且在物理结构上也有效,这比AlphaFold 3和Boltz-1x在同一协议下的表现高出14.5%。在PoseBusters测试中,PEARL的成功率为84.7%,比表现最好的开源模型高出14.2%,比AlphaFold 3官方报告的成功率高出近40%。最重要的是,当应用对结构的物理合理性更严格的要求时,成功率不会显著下降。这证明PEARL生成的位姿不仅在RMSD上非常接近,而且在化学有效性上也非常接近。

为真实药物化学提供高精度位姿

作者超越了通常的RMSD < 2 Å指标,专注于更严格的要求RMSD < 1 Å。他们还增加了PoseBuster有效性要求,这被认为是最严格的要求,也是药物化学家进行构效关系(SAR)和效力建模所需的更实际要求。PEARL是唯一一个在此严格要求下保持超过70%成功率的模型。相比之下,其他执行此任务的模型远远达不到这一要求。在Genesis专有的InternalXtals数据集(111个具有挑战性的药物项目结构)上,PEARL在RMSD < 1 Å下比最强的开源基线高出近四倍的相对增益,尽管该基线可以访问更新的训练数据。

两种模式:发现与优化

PEARL旨在尽可能紧密地复制药物发现团队的工作流程。在无条件模式下,它仅使用蛋白质序列和配体的2D拓扑结构(以及MSA和模板)来探索结合位姿。这对于口袋尚未被充分理解的早期探索最为合适。在"口袋条件"模式下,PEARL将脱辅基或全辅基结构以及一小部分口袋残基作为指导,允许化学家将位姿预测约束到特定的已知结合位点和辅因子。PEARL在此条件模式下仍然是领导者,在PoseBusters和InternalXtals测试中击败竞争对手,并在1 Å阈值下取得最大进展,这对先导化合物优化至关重要。

分子AI中的合成数据与缩放定律

作者讨论的合成数据最为引人入胜。PEARL不仅在精选的PDB结构和蒸馏单体数据上进行训练,还在大量蛋白质-配体复合物上进行训练。PEARL还使用公共结构来构建合成数据。与较小规模实验的特殊测试表明,随着训练中合成复合物比例的增加,呈现出了清晰的缩放曲线。这被作为药物发现中"合成数据缩放定律"的早期证据,表明高质量模拟可以在分子AI中发挥类似于自动驾驶中模拟的作用。

架构、硬件与实际吞吐量

在底层,PEARL的主干使用高效的三角运算,通过NVIDIA的cuEquivariance内核加速,并采用保守的混合精度策略,将繁重的计算推入bfloat16,同时将数值敏感部分保持在全精度。这仅从混合精度就带来了约22%的训练速度提升,另外在训练中还有约15%的速度提升,在推理方面比普通的PyTorch基线快10-80%,具体取决于序列长度。这些增益并非学术性的:它们使得在大型合成语料库上训练并在Genesis的GEMS平台内部以工业规模部署PEARL成为可行。

分子AI下一个时代的基础

作者坦率地表示PEARL并非魔法。在案例研究中,作者发现了一些实例,其中配体被映射到训练口袋中它们本不属于的区域。还有一些实例中,环重排被过度拟合,或者完成的结构可视化显示不正确的参考距离和/或缺少关键的氢原子。

尽管如此,根据PEARL技术报告,Genesis Molecular AI正在成为开发操作上有用、科学上合理的基础模型的领先公司之一。PEARL成功地从令人印象深刻的演示转变为药物化学家手中真正的实用工具。这是通过最先进的合成数据生成、复杂的硬件感知工程以及等变生成建模技术的开创性引入实现的。对于AI和药物发现领域的创新者来说,启示很简单:数据生成、物理归纳偏差和可控推理将是未来分子模型的三大支柱。

【全文结束】

猜你喜欢
    热点资讯
    全站热点
    全站热文