药物研发流程既昂贵又耗时。在早期阶段识别高质量的“命中”化合物——即具有高活性、高选择性和良好代谢特性的化合物——对于降低成本并加速进入临床试验至关重要。过去十年,科学家们一直寻求利用机器学习来提高初始筛选过程的效率。
计算机辅助药物设计用于计算筛选与靶标蛋白相互作用的化合物。然而,准确快速地估计这些相互作用的强度仍是一个挑战。
机器学习承诺弥合基于物理的金标准计算方法(精度高)与简单经验评分函数(速度快)之间的差距。遗憾的是,由于当前机器学习方法在遇到训练中未接触过的化学结构时会不可预测地失败,其潜力至今未能实现,这限制了其在真实世界药物发现中的实用性。
本杰明·P·布朗博士,范德堡大学医学院基础科学学院药理学助理教授
布朗是最近在《美国国家科学院院刊》上发表的一篇解决“泛化性差距”问题的论文的唯一作者。在该论文中,他提出了一种针对性方法:与其从蛋白质和药物分子的整个三维结构中学习,布朗建议采用任务特定的模型架构,该架构被有意限制为仅从它们的相互作用空间表示中学习,这种表示捕捉了原子对之间的距离依赖性物理化学相互作用。
“通过将模型约束在此视图中,它被迫学习分子结合的可迁移原理,而非训练数据中存在的、无法泛化到新分子的结构捷径,”布朗表示。
布朗工作的一个关键方面是他开发的严格评估协议。“我们设置训练和测试运行以模拟真实场景:‘如果明天发现一个全新的蛋白家族,我们的模型能否对其做出有效预测?’”他表示。为此,他从训练集中排除了整个蛋白超家族及其所有相关化学数据,创建了一个具有挑战性且现实的模型泛化能力测试。
布朗的工作为该领域提供了几个关键见解:
- 任务特定的专用架构为利用当今公开可用数据集构建可泛化模型提供了一条清晰途径。通过设计具有特定“归纳偏置”的模型,强制其从分子相互作用表示而非原始化学结构中学习,模型能更有效地泛化。
- 严格、现实的基准测试至关重要。论文的验证协议显示,在标准基准测试中表现良好的当代机器学习模型,在面对新蛋白家族时性能可能显著下降。这突显了该领域需要更严格的评估实践,以准确衡量真实世界实用性。
- 当前相比传统评分函数的性能提升较为有限,但该工作为一种不会不可预测失败的建模策略建立了清晰可靠的基线,这是构建可信赖药物发现人工智能的关键一步。
作为蛋白质动力学人工智能中心的核心教师,布朗深知还有更多工作要做。他当前的项目仅专注于基于与靶标蛋白相互作用强度对化合物进行评分排序——这只是基于结构的药物发现方程的一部分。“我的实验室从根本上关注分子模拟和计算机辅助药物设计中与可扩展性和泛化性相关的建模挑战。希望很快能分享一些旨在推进这些原则的额外工作,”布朗表示。
目前,重大挑战依然存在,但布朗在构建更可靠的基于结构的计算机辅助药物设计机器学习方法方面的工作已阐明了前进道路。
【全文结束】

