引言
本文融合了药物发现理论、图神经网络原理及Deepchem库的实践操作。第一部分将探讨机器学习在药物开发中的潜在应用,并解析图神经网络模型可能适用的分子特征。随后进入编码实践环节,构建可预测分子溶解度的图神经网络模型。让我们开始吧!
药物开发与机器学习的特殊化学反应
药物开发是耗时数十年的漫长过程,需经历从初始药物发现到最终获批的多个阶段[1]。初始阶段聚焦于识别可能成为药物的分子群组,随后通过多轮筛选淘汰不合格分子,最终进行实际测试。药物发现阶段的关键评估指标是ADME特性(Absorption吸收、Distribution分布、Metabolism代谢和Excretion排泄)。可将药物发现视为优化问题:通过预测ADME特性筛选能提升安全药物开发概率的分子[2]。高效计算方法能快速定位具备理想特性的分子,显著加速药物研发进程,并为研发企业带来竞争优势。
机器学习应用于药物发现只是时间问题。这使分子数据集的处理速度和精度达到前所未有的水平[3]。然而,为使分子结构适用于机器学习,需执行复杂预处理步骤,例如将三维分子结构转换为一维指纹向量,或从分子特定原子中提取数值特征。
分子溶解度为何重要
ADME特性中的吸收特性决定药物能否高效进入患者血液系统。影响吸收的关键因素之一是水溶性,即物质在水中的溶解能力。若能预测溶解度,即可有效评估药物的吸收特性。
图神经网络的解决方案
为将图神经网络应用于分子结构,需将其转换为模型可理解的数值表示。此步骤较为复杂,且随图神经网络架构不同而变化。幸运的是,Deepchem或RDKit等外部库已覆盖大部分预处理流程。
以下简述分子结构预处理的常见方法:
SMILES
SMILES是分子二维结构的字符串表示法。它将任意分子映射为特殊字符串(通常唯一),且可逆向还原为二维结构。但有时不同分子可能映射到相同SMILES字符串,导致模型性能下降。
分子指纹
分子指纹是二进制向量,每位表示特定分子子结构是否存在。其长度通常较大,且可能无法涵盖部分结构信息(如手性)。
邻接矩阵与特征向量
另一种预处理方法是创建邻接矩阵。该矩阵描述原子连接关系,"1"表示存在连接,"0"表示无连接。邻接矩阵具有稀疏性且规模较大,处理效率较低。
以甲烷(CH4)为例:邻接矩阵(右上)描述原子连接关系(如碳原子C与自身及其他H原子相连);特征向量组(右中)包含单个原子信息(如原子序数、价电子数或单键数量);特征对向量矩阵(右下)描述相邻原子关系,通常为两个原子特征向量的函数(和、平均值等)。特征向量通常由RDKit或Deepchem包生成。
溶解度指标
本文预测的目标变量称为cLogP(辛醇-水分配系数)。数值越低,水溶性越强。clogP是对数比率,取值范围为-3至7[6]。
溶解度logS的通用方程为:
溶解度方程。MP为熔点(摄氏度),logKow即辛醇-水分配系数(亦称cLogP)
该方程的难点在于MP(熔点)极难通过分子化学结构预测[7]。现有溶解度数据集仅含cLogP值,故本文也将预测该指标。
Deepchem实战操作
Deepchem是基于TensorFlow、NumPy和RDKit等包构建的生命科学深度学习库。它为分子数据提供便捷功能,包括数据加载器、分割器、特征提取器、评估指标及图神经网络模型。鉴于本地配置较复杂,建议使用提供的Colab笔记本运行。
首先下载Delaney数据集(溶解度预测任务的基准数据集)。通过CSVLoader类加载数据,指定含cLogP数据的列作为tasks参数,并在smiles_field中定义SMILES字符串列名。选用ConvMolFeaturizer生成图神经网络所需的输入特征。
随后使用RandomSplitter分割数据集,划分为训练集和验证集。同时对y值进行归一化处理,使其均值为零、标准差为一。
本例采用GraphConvModel作为图神经网络架构,该架构由Duvenaud等人创建。Deepchem还提供WeaveModel、DAGModel等其他图神经网络模型。
代码片段中定义了皮尔逊R2分数:该值越接近1,模型性能越佳。
Deepchem模型基于Keras API。通过fit()函数训练graph_conv模型(可指定训练轮次),再用evaluate()函数获取评分。由于y值需映射回原始范围以计算指标,此处必须传入归一化器。
至此完成全部流程!Deepchem支持更多高级功能,建议查阅其官方教程。
感谢阅读本文,希望对您有所帮助!
作者简介
本人为阿姆斯特丹大学人工智能理学硕士生。业余时间常与数据打交道或调试深度学习模型(我发誓它之前能运行!)。也喜爱徒步旅行。
参考文献
[1] 早期药物发现:化学信息学与计算技术在识别先导化合物中的应用
[2] ADME特性
[3] 化学信息学与药物发现中的机器学习
[4] QSAR与药物设计研究中的分子拓扑学
[5] 分子哈希指纹再探
[6] 山本宏博士讲座笔记
[7] 预测水溶性——难度超乎想象
【全文结束】

