先进机器学习在创新药物发现中的应用Advanced machine learning for innovative drug discovery - PMC

环球医讯 / AI与医疗健康来源:pmc.ncbi.nlm.nih.gov德国 - 英语2025-08-14 22:21:53 - 阅读时长4分钟 - 1891字
本文系统综述了《化学信息学杂志》特刊"人工智能在药物发现中的应用"的最新研究成果,深入探讨了机器学习在结构化药物开发、分子性质预测、反应预测等领域的创新方法,涵盖结合位点识别、对接评分函数优化、ADMET性质预测、深度生成模型应用等前沿方向,分析了模型预训练、不确定性估计、联邦学习等关键技术发展,揭示了机器学习对自主化学实验室的推动潜力,文章还讨论了数据泄露风险、计算资源优化等新兴挑战。
创新药物发现机器学习结构化药物发现分子性质预测反应预测药物研发健康ADMET特性模型预训练药物毒性预测
先进机器学习在创新药物发现中的应用

摘要

本文对《化学信息学杂志》特刊《人工智能在药物发现中的应用》发表的研究成果进行了系统分析。重点回顾了新型机器学习方法如何提升结构基础药物发现效能,包括分子性质预测精度提升、化学反应预测优化等方向。方法论创新涵盖模型预训练增强、预测不确定性评估、超参数调优避免过拟合等关键技术,特别强调了人类专家知识整合与模型抗攻击性分析。研究证明机器学习已发展为现代药物研发不可或缺的核心工具,未来有望推动自动化化学实验室的实现。

结构化药物发现:结合位点识别与对接评分

结构化药物研发关键在于识别蛋白质结合口袋。Wang等提出的CLAPE-SMB方法通过序列数据分析预测蛋白-DNA结合位点,其性能优于传统3D信息依赖方法。令人惊讶的是,采用焦点损失(Focal Loss)缓解数据不平衡(结合位点占比不足5%)的效果并不显著。

在对接工具应用方面,McNutt等开发的Gnina 1.3版通过卷积神经网络改进对接评分,采用知识蒸馏技术提升推理速度,并新增共价对接评分功能。Mukta团队提出的AGL-EAT-Score通过构建蛋白质-配体复合物的加权彩色子图(基于SYBYL原子类型),利用特征值生成17000个描述符,结合梯度提升树建立高精度结合亲和力预测模型。

Errington等研究发现,传统对接方法在药效团恢复和物理合理性方面表现更优,建议在机器学习模型训练中整合蛋白质-配体相互作用指纹或药效团敏感损失函数。DeepTGIN模型通过Transformer和图同构网络整合配体图结构、结合口袋序列信息,实现高精度结合亲和力预测,其注意力机制可可视化关键相互作用,但物理验证仍需加强。

分子性质预测

在分子性质预测方面,AttenhERG模型基于Attentive FP算法在hERG毒性预测中表现最优,可识别关键毒性原子。CardioGenAI通过自回归Transformer实现药物结构改造,在保留药效的同时降低hERG毒性风险。StreamChol开发了基于Web的胆汁淤积毒性评估工具,而E-GuARD采用数据增强技术解决干扰性化合物预测中的数据失衡问题(如萤光素酶干扰化合物占比仅0.7%-3.3%)。

在光化学治疗应用中,Vigna等开发的机器学习模型较传统TDDFT计算速度提升显著,成功预测过渡金属配合物在治疗窗口的光吸收特性。Ushenin团队提出的LAGNet架构通过优化电子密度网格表示,解决了传统DFT计算中核心轨道振幅差异导致的训练难题。

机器学习方法分析与基准测试

药物开发需要综合考虑理化性质和ADMET特性,但实验数据有限且存在测量误差。Guo等发现UMAP数据划分方法比传统Butina划分、支架划分等方法更能反映模型真实性能。ChemProp和fastprop等图神经网络在预测性能相当的情况下,fastprop计算速度提升10倍。预设超参数组合可避免小规模数据集的过度优化,Tetko团队验证该方法在10000倍加速下仍能保持预测精度。

模型预训练对下游任务性能提升显著。Fallani等发现基于量子化学性质的Graphormer预训练可改善ADMET预测。Masood的VitroBERT通过体外数据预训练在DILI任务中表现优异。Friesacher等开发的贝叶斯不确定性评估方法在提升校准度的同时实现更高预测准确率。

反应预测

在反应预测领域,Torren-Peraire团队开发的基准测试集可同时优化多路线合成,使化合物同步合成率提升30%。Andronov等采用投机解码技术实现3倍加速的反应产物预测。Vangala团队利用大语言模型从专利文献提取反应数据,新反应发现量提升26%。

发展趋势与挑战

机器学习方法在药物发现各环节已形成对传统方法(如对接、DFT计算)的竞争优势。模型可解释性与专家知识整合成为重要发展方向。新兴挑战包括:计算资源优化与碳足迹控制、模型共享中的数据泄露风险(特别是稀有活性化合物的识别)。随着硬件技术进步,结合计算预测的自主化学实验室将成为下一阶段重要突破。

致谢

感谢Katya Ahmad的专业意见和校对工作。

作者贡献

IVT负责稿件起草。DAC提供关键反馈和修改建议。

基金支持

本研究部分获得欧盟"地平线2020"玛丽·居里行动项目(AIDD,956832)和"地平线欧洲"玛丽·居里博士项目(AiChemist,101120466)资助。

脚注

出版者声明

施普林格·自然保持中立立场,对已发表地图和机构隶属声明中的管辖权主张不做评价。

【全文结束】

大健康

猜你喜欢

  • 新型风险计算器可更精准预测中风新型风险计算器可更精准预测中风
  • 人工智能如何悄然改变药物制造的可行性人工智能如何悄然改变药物制造的可行性
  • Conformal Medical完成3200万美元融资用于CLAAS系统临床试验Conformal Medical完成3200万美元融资用于CLAAS系统临床试验
  • 冠状动脉疾病:生理学、影像学与创新领域的当代见解冠状动脉疾病:生理学、影像学与创新领域的当代见解
  • 阿尔茨海默病:你需要了解的一切阿尔茨海默病:你需要了解的一切
  • 疾病修饰抗风湿药物对炎症性关节疾病患者心血管风险的影响:当前证据与不确定性疾病修饰抗风湿药物对炎症性关节疾病患者心血管风险的影响:当前证据与不确定性
  • 可能有助于减缓或控制痴呆和阿尔茨海默病症状的7种药物可能有助于减缓或控制痴呆和阿尔茨海默病症状的7种药物
  • GLP-1药物新突破中的最大赢家GLP-1药物新突破中的最大赢家
  • Conformal Medical完成3200万美元融资推进CLAAS系统临床试验Conformal Medical完成3200万美元融资推进CLAAS系统临床试验
  • 药物发现与开发:五大突破阶段药物发现与开发:五大突破阶段
大健康
大健康

热点资讯

大健康

全站热点

大健康

全站热文

大健康