药物研发流程成本高昂且耗时漫长。在早期阶段识别高质量"命中化合物"——即具有高活性、高选择性和理想代谢特性的化合物——对降低成本并加速推进临床试验至关重要。过去十年间,科学家们一直寄望于机器学习技术提升初始筛选效率。
计算机辅助药物设计通过计算方法筛选能与靶标蛋白相互作用的化合物,但准确快速评估这些相互作用强度的能力仍是重大挑战。
范德堡大学医学院基础科学学院药理学助理教授本杰明·P·布朗博士表示:"机器学习曾承诺弥合黄金标准物理计算方法的精度与简易经验评分函数的速度之间的鸿沟。然而,由于现有机器学习方法在遇到训练数据未涵盖的化学结构时可能不可预测地失效,其潜力尚未实现,这限制了其在真实药物发现场景中的实用性。"
布朗作为唯一作者在近期《美国国家科学院院刊》发表论文,直面这一"泛化能力差距"。他提出针对性方案:放弃学习蛋白质与药物分子的完整三维结构,转而设计任务特定模型架构,使其仅能从分子相互作用空间表征中学习,该表征捕捉了原子对之间距离依赖的理化相互作用。
布朗解释:"通过将模型限制在此视角下,迫使其学习分子结合的可迁移原理,而非训练数据中存在的无法泛化至新分子的结构捷径。"
布朗研究的关键突破在于其严格的评估协议:"我们设置训练和测试流程以模拟真实场景:若明日发现全新蛋白家族,模型能否对其做出有效预测?"为此,他将整个蛋白超家族及其关联化学数据从训练集中剔除,创建出对模型泛化能力的严苛现实检验。
布朗的研究为该领域提供三大关键洞见:
- 任务特定的专业化架构为利用现有公开数据集构建可泛化模型开辟清晰路径。通过设计具有特定"归纳偏置"的模型,强制其从分子相互作用表征而非原始化学结构中学习,可实现更有效的泛化。
- 严格真实的基准测试至关重要。论文验证协议揭示,在标准基准表现优异的当代机器学习模型,面对新型蛋白家族时性能可能出现显著下滑。这凸显该领域亟需更严格的评估实践以准确衡量真实世界效用。
- 相比传统评分函数的当前性能提升虽有限,但该研究确立了不会不可预测失效的建模策略可靠基线,这是构建可信赖药物发现AI的关键步骤。
布朗PNAS论文图6展示了其任务特定机器学习算法CORDIAL与其他常用算法的可靠性对比。图中彩色线越接近各图中的基准线,表明模型置信度与真实世界性能的匹配度越高(布朗,《PNAS》2025)。
作为蛋白质动力学人工智能研究中心核心教员,布朗深知前路仍长。当前研究聚焦于评分环节——根据化合物与靶标蛋白相互作用强度进行排序,这只是基于结构的药物发现方程的一部分。"我们的实验室根本关注分子模拟和计算机辅助药物设计中与可扩展性及泛化能力相关的建模挑战。希望不久后能分享旨在推进这些原则的额外成果,"布朗表示,"目前重大挑战依然存在,但我们在基于结构的计算机辅助药物设计中构建更可靠机器学习方法的工作,已为未来发展指明方向。"
【全文结束】