摘要
本文对《化学信息学杂志》特刊《人工智能在药物发现中的应用》发表的研究成果进行了系统分析。重点回顾了新型机器学习方法如何提升结构基础药物发现效能,包括分子性质预测精度提升、化学反应预测优化等方向。方法论创新涵盖模型预训练增强、预测不确定性评估、超参数调优避免过拟合等关键技术,特别强调了人类专家知识整合与模型抗攻击性分析。研究证明机器学习已发展为现代药物研发不可或缺的核心工具,未来有望推动自动化化学实验室的实现。
结构化药物发现:结合位点识别与对接评分
结构化药物研发关键在于识别蛋白质结合口袋。Wang等提出的CLAPE-SMB方法通过序列数据分析预测蛋白-DNA结合位点,其性能优于传统3D信息依赖方法。令人惊讶的是,采用焦点损失(Focal Loss)缓解数据不平衡(结合位点占比不足5%)的效果并不显著。
在对接工具应用方面,McNutt等开发的Gnina 1.3版通过卷积神经网络改进对接评分,采用知识蒸馏技术提升推理速度,并新增共价对接评分功能。Mukta团队提出的AGL-EAT-Score通过构建蛋白质-配体复合物的加权彩色子图(基于SYBYL原子类型),利用特征值生成17000个描述符,结合梯度提升树建立高精度结合亲和力预测模型。
Errington等研究发现,传统对接方法在药效团恢复和物理合理性方面表现更优,建议在机器学习模型训练中整合蛋白质-配体相互作用指纹或药效团敏感损失函数。DeepTGIN模型通过Transformer和图同构网络整合配体图结构、结合口袋序列信息,实现高精度结合亲和力预测,其注意力机制可可视化关键相互作用,但物理验证仍需加强。
分子性质预测
在分子性质预测方面,AttenhERG模型基于Attentive FP算法在hERG毒性预测中表现最优,可识别关键毒性原子。CardioGenAI通过自回归Transformer实现药物结构改造,在保留药效的同时降低hERG毒性风险。StreamChol开发了基于Web的胆汁淤积毒性评估工具,而E-GuARD采用数据增强技术解决干扰性化合物预测中的数据失衡问题(如萤光素酶干扰化合物占比仅0.7%-3.3%)。
在光化学治疗应用中,Vigna等开发的机器学习模型较传统TDDFT计算速度提升显著,成功预测过渡金属配合物在治疗窗口的光吸收特性。Ushenin团队提出的LAGNet架构通过优化电子密度网格表示,解决了传统DFT计算中核心轨道振幅差异导致的训练难题。
机器学习方法分析与基准测试
药物开发需要综合考虑理化性质和ADMET特性,但实验数据有限且存在测量误差。Guo等发现UMAP数据划分方法比传统Butina划分、支架划分等方法更能反映模型真实性能。ChemProp和fastprop等图神经网络在预测性能相当的情况下,fastprop计算速度提升10倍。预设超参数组合可避免小规模数据集的过度优化,Tetko团队验证该方法在10000倍加速下仍能保持预测精度。
模型预训练对下游任务性能提升显著。Fallani等发现基于量子化学性质的Graphormer预训练可改善ADMET预测。Masood的VitroBERT通过体外数据预训练在DILI任务中表现优异。Friesacher等开发的贝叶斯不确定性评估方法在提升校准度的同时实现更高预测准确率。
反应预测
在反应预测领域,Torren-Peraire团队开发的基准测试集可同时优化多路线合成,使化合物同步合成率提升30%。Andronov等采用投机解码技术实现3倍加速的反应产物预测。Vangala团队利用大语言模型从专利文献提取反应数据,新反应发现量提升26%。
发展趋势与挑战
机器学习方法在药物发现各环节已形成对传统方法(如对接、DFT计算)的竞争优势。模型可解释性与专家知识整合成为重要发展方向。新兴挑战包括:计算资源优化与碳足迹控制、模型共享中的数据泄露风险(特别是稀有活性化合物的识别)。随着硬件技术进步,结合计算预测的自主化学实验室将成为下一阶段重要突破。
致谢
感谢Katya Ahmad的专业意见和校对工作。
作者贡献
IVT负责稿件起草。DAC提供关键反馈和修改建议。
基金支持
本研究部分获得欧盟"地平线2020"玛丽·居里行动项目(AIDD,956832)和"地平线欧洲"玛丽·居里博士项目(AiChemist,101120466)资助。
脚注
出版者声明
施普林格·自然保持中立立场,对已发表地图和机构隶属声明中的管辖权主张不做评价。
【全文结束】

