使用图神经网络进行药物发现 — 第一部分Drug Discovery with Graph Neural Networks — part 1

环球医讯 / 创新药物来源:readmedium.com荷兰 - 英语2025-10-01 23:57:10 - 阅读时长5分钟 - 2114字
本文系统阐述了图神经网络在药物发现领域的创新应用,重点演示如何利用Deepchem深度学习库预测分子溶解度。文章首先解析了机器学习加速药物研发的原理,详细说明ADME特性(吸收、分布、代谢和排泄)对药物安全性的决定性作用,并深入探讨分子水溶性与药物吸收效率的关联机制。随后介绍三种分子结构数值化方法:SMILES字符串表示法、分子指纹编码及邻接矩阵特征向量,阐明图神经网络处理化学结构的理论基础。实践部分通过ConvMolFeaturizer和GraphConvModel构建端到端预测流程,展示如何训练模型计算cLogP值(辛醇-水分配系数)以评估水溶性,该技术可显著缩短传统药物筛选周期并提升研发效率,为生物医药领域提供突破性计算工具。
药物发现图神经网络ADME特性分子溶解度cLogPDeepchem库机器学习分子结构预处理药物开发溶解度预测
使用图神经网络进行药物发现 — 第一部分

引言

本文融合了药物发现理论、图神经网络原理及Deepchem库的实践操作。第一部分将探讨机器学习在药物开发中的潜在应用,并解析图神经网络模型可能适用的分子特征。随后进入编码实践环节,构建可预测分子溶解度的图神经网络模型。让我们开始吧!

药物开发与机器学习的特殊化学反应

药物开发是耗时数十年的漫长过程,需经历从初始药物发现到最终获批的多个阶段[1]。初始阶段聚焦于识别可能成为药物的分子群组,随后通过多轮筛选淘汰不合格分子,最终进行实际测试。药物发现阶段的关键评估指标是ADME特性(Absorption吸收、Distribution分布、Metabolism代谢和Excretion排泄)。可将药物发现视为优化问题:通过预测ADME特性筛选能提升安全药物开发概率的分子[2]。高效计算方法能快速定位具备理想特性的分子,显著加速药物研发进程,并为研发企业带来竞争优势。

机器学习应用于药物发现只是时间问题。这使分子数据集的处理速度和精度达到前所未有的水平[3]。然而,为使分子结构适用于机器学习,需执行复杂预处理步骤,例如将三维分子结构转换为一维指纹向量,或从分子特定原子中提取数值特征。

分子溶解度为何重要

ADME特性中的吸收特性决定药物能否高效进入患者血液系统。影响吸收的关键因素之一是水溶性,即物质在水中的溶解能力。若能预测溶解度,即可有效评估药物的吸收特性。

图神经网络的解决方案

为将图神经网络应用于分子结构,需将其转换为模型可理解的数值表示。此步骤较为复杂,且随图神经网络架构不同而变化。幸运的是,Deepchem或RDKit等外部库已覆盖大部分预处理流程。

以下简述分子结构预处理的常见方法:

SMILES

SMILES是分子二维结构的字符串表示法。它将任意分子映射为特殊字符串(通常唯一),且可逆向还原为二维结构。但有时不同分子可能映射到相同SMILES字符串,导致模型性能下降。

分子指纹

分子指纹是二进制向量,每位表示特定分子子结构是否存在。其长度通常较大,且可能无法涵盖部分结构信息(如手性)。

邻接矩阵与特征向量

另一种预处理方法是创建邻接矩阵。该矩阵描述原子连接关系,"1"表示存在连接,"0"表示无连接。邻接矩阵具有稀疏性且规模较大,处理效率较低。

以甲烷(CH4)为例:邻接矩阵(右上)描述原子连接关系(如碳原子C与自身及其他H原子相连);特征向量组(右中)包含单个原子信息(如原子序数、价电子数或单键数量);特征对向量矩阵(右下)描述相邻原子关系,通常为两个原子特征向量的函数(和、平均值等)。特征向量通常由RDKit或Deepchem包生成。

溶解度指标

本文预测的目标变量称为cLogP(辛醇-水分配系数)。数值越低,水溶性越强。clogP是对数比率,取值范围为-3至7[6]。

溶解度logS的通用方程为:

溶解度方程。MP为熔点(摄氏度),logKow即辛醇-水分配系数(亦称cLogP

该方程的难点在于MP(熔点)极难通过分子化学结构预测[7]。现有溶解度数据集仅含cLogP值,故本文也将预测该指标。

Deepchem实战操作

Deepchem是基于TensorFlow、NumPy和RDKit等包构建的生命科学深度学习库。它为分子数据提供便捷功能,包括数据加载器、分割器、特征提取器、评估指标及图神经网络模型。鉴于本地配置较复杂,建议使用提供的Colab笔记本运行。

首先下载Delaney数据集(溶解度预测任务的基准数据集)。通过CSVLoader类加载数据,指定含cLogP数据的列作为tasks参数,并在smiles_field中定义SMILES字符串列名。选用ConvMolFeaturizer生成图神经网络所需的输入特征。

随后使用RandomSplitter分割数据集,划分为训练集和验证集。同时对y值进行归一化处理,使其均值为零、标准差为一。

本例采用GraphConvModel作为图神经网络架构,该架构由Duvenaud等人创建。Deepchem还提供WeaveModel、DAGModel等其他图神经网络模型。

代码片段中定义了皮尔逊R2分数:该值越接近1,模型性能越佳。

Deepchem模型基于Keras API。通过fit()函数训练graph_conv模型(可指定训练轮次),再用evaluate()函数获取评分。由于y值需映射回原始范围以计算指标,此处必须传入归一化器。

至此完成全部流程!Deepchem支持更多高级功能,建议查阅其官方教程。

感谢阅读本文,希望对您有所帮助!

作者简介

本人为阿姆斯特丹大学人工智能理学硕士生。业余时间常与数据打交道或调试深度学习模型(我发誓它之前能运行!)。也喜爱徒步旅行。

参考文献

[1] 早期药物发现:化学信息学与计算技术在识别先导化合物中的应用

[2] ADME特性

[3] 化学信息学与药物发现中的机器学习

[4] QSAR与药物设计研究中的分子拓扑学

[5] 分子哈希指纹再探

[6] 山本宏博士讲座笔记

[7] 预测水溶性——难度超乎想象

【全文结束】

大健康

猜你喜欢

  • 健康保险公司提供DNA检测预测药物效果 参与前需了解的关键事项健康保险公司提供DNA检测预测药物效果 参与前需了解的关键事项
  • 分子开关技术实现药物活性精准调控分子开关技术实现药物活性精准调控
  • 药物发现与开发药物发现与开发
  • 机器中的医生 人工智能如何彻底改变医疗保健机器中的医生 人工智能如何彻底改变医疗保健
  • 威斯塔研究所开设新药与疗法研究中心威斯塔研究所开设新药与疗法研究中心
  • 心房心动过速诊断与治疗指南心房心动过速诊断与治疗指南
  • 利用深度学习从社区心电图预测心房颤动:一项多国研究利用深度学习从社区心电图预测心房颤动:一项多国研究
  • 医疗保健中的人工智能医疗保健中的人工智能
  • 对制药领域代理型AI的合理期待是什么?第二部分:生命科学中代理型AI的应用对制药领域代理型AI的合理期待是什么?第二部分:生命科学中代理型AI的应用
  • 新药发现或可减少阿片类药物过量死亡新药发现或可减少阿片类药物过量死亡
大健康
大健康

热点资讯

大健康

全站热点

大健康

全站热文

大健康