先进机器学习在创新药物发现中的应用 - AI与医疗健康

先进机器学习在创新药物发现中的应用Advanced machine learning for innovative drug discovery - PMC

环球医讯 / AI与医疗健康来源：pmc.ncbi.nlm.nih.gov德国 - 英语2025-08-14 22:21:53 - 阅读时长4分钟 - 1891字

本文系统综述了《化学信息学杂志》特刊"人工智能在药物发现中的应用"的最新研究成果，深入探讨了机器学习在结构化药物开发、分子性质预测、反应预测等领域的创新方法，涵盖结合位点识别、对接评分函数优化、ADMET性质预测、深度生成模型应用等前沿方向，分析了模型预训练、不确定性估计、联邦学习等关键技术发展，揭示了机器学习对自主化学实验室的推动潜力，文章还讨论了数据泄露风险、计算资源优化等新兴挑战。

摘要

本文对《化学信息学杂志》特刊《人工智能在药物发现中的应用》发表的研究成果进行了系统分析。重点回顾了新型机器学习方法如何提升结构基础药物发现效能，包括分子性质预测精度提升、化学反应预测优化等方向。方法论创新涵盖模型预训练增强、预测不确定性评估、超参数调优避免过拟合等关键技术，特别强调了人类专家知识整合与模型抗攻击性分析。研究证明机器学习已发展为现代药物研发不可或缺的核心工具，未来有望推动自动化化学实验室的实现。

结构化药物发现：结合位点识别与对接评分

结构化药物研发关键在于识别蛋白质结合口袋。Wang等提出的CLAPE-SMB方法通过序列数据分析预测蛋白-DNA结合位点，其性能优于传统3D信息依赖方法。令人惊讶的是，采用焦点损失(Focal Loss)缓解数据不平衡（结合位点占比不足5%）的效果并不显著。

在对接工具应用方面，McNutt等开发的Gnina 1.3版通过卷积神经网络改进对接评分，采用知识蒸馏技术提升推理速度，并新增共价对接评分功能。Mukta团队提出的AGL-EAT-Score通过构建蛋白质-配体复合物的加权彩色子图（基于SYBYL原子类型），利用特征值生成17000个描述符，结合梯度提升树建立高精度结合亲和力预测模型。

Errington等研究发现，传统对接方法在药效团恢复和物理合理性方面表现更优，建议在机器学习模型训练中整合蛋白质-配体相互作用指纹或药效团敏感损失函数。DeepTGIN模型通过Transformer和图同构网络整合配体图结构、结合口袋序列信息，实现高精度结合亲和力预测，其注意力机制可可视化关键相互作用，但物理验证仍需加强。

分子性质预测

在分子性质预测方面，AttenhERG模型基于Attentive FP算法在hERG毒性预测中表现最优，可识别关键毒性原子。CardioGenAI通过自回归Transformer实现药物结构改造，在保留药效的同时降低hERG毒性风险。StreamChol开发了基于Web的胆汁淤积毒性评估工具，而E-GuARD采用数据增强技术解决干扰性化合物预测中的数据失衡问题（如萤光素酶干扰化合物占比仅0.7%-3.3%）。

在光化学治疗应用中，Vigna等开发的机器学习模型较传统TDDFT计算速度提升显著，成功预测过渡金属配合物在治疗窗口的光吸收特性。Ushenin团队提出的LAGNet架构通过优化电子密度网格表示，解决了传统DFT计算中核心轨道振幅差异导致的训练难题。

机器学习方法分析与基准测试

药物开发需要综合考虑理化性质和ADMET特性，但实验数据有限且存在测量误差。Guo等发现UMAP数据划分方法比传统Butina划分、支架划分等方法更能反映模型真实性能。ChemProp和fastprop等图神经网络在预测性能相当的情况下，fastprop计算速度提升10倍。预设超参数组合可避免小规模数据集的过度优化，Tetko团队验证该方法在10000倍加速下仍能保持预测精度。

模型预训练对下游任务性能提升显著。Fallani等发现基于量子化学性质的Graphormer预训练可改善ADMET预测。Masood的VitroBERT通过体外数据预训练在DILI任务中表现优异。Friesacher等开发的贝叶斯不确定性评估方法在提升校准度的同时实现更高预测准确率。