研究背景
高血压是影响超十亿成年人的全球性健康问题,其未受控状态会导致严重并发症。尽管医疗技术进步显著,但仅有约20%患者能有效控制血压。阻碍治疗依从性的主要因素是药物的致残性副作用,导致患者选择带病生存而非承受副作用。本研究提出机器学习方法对计算生成的新型抗高血压药物分子进行副作用预测,通过整合SIDER 4.1和ChEMBL数据库信息,并利用RDKit添加分子描述符(logP、PSA、HBD、HBA)构建数据集。
方法创新
研究团队采用合成少数类过采样技术(SMOTE)解决类别不平衡问题,对比评估随机森林、梯度提升和XGBoost三种机器学习模型。梯度提升算法在独立测试集中表现最优,马修斯相关系数(MCC)达0.15,且交叉验证与测试集间的性能差异最小。SHAP分析显示极性表面积(PSA)和logP对副作用预测贡献最大,其次是氢键供/受体数量。
关键发现
- 官能团影响:酚类和胺类基团与肝脏疾病密切相关,醇类基团与眼部副作用相关,醛类与呼吸系统问题关联,酯类与神经紊乱相关。
- ADMET特性:PSA值>108时显著影响细胞膜渗透性,logP>4.15可能导致药物吸收不良。
- 模型应用:对50个AI生成的先导分子进行预测发现:
- 50%以上化合物存在胃肠道副作用
- 仅75%样本无眼部影响
- 肝脏/胰腺问题发生率14%
- 13.72%的分子具有5种以上副作用
验证案例
选取分子10(含胺基、羟基、酚环和硫醇基)预测:
- 肝脏疾病概率91%
- 皮肤问题概率44%
- 心血管副作用风险显著
分子50(含胺基和苯环)预测显示所有副作用概率均较高,提示需重新设计或淘汰。
研究限制
当前模型MCC值(0.15)表明其主要作为描述性工具,而非确定性预测。未来需整合更大规模数据集和更全面的分子描述符以提升预测可靠性。
数据资源
研究使用的50个分子数据集可通过对应作者申请获取,相关代码和模型参数已在开源平台发布(GitHub仓库链接已删除)。
伦理声明
本研究未涉及人体/动物实验,数据来源均为公开数据库。
【全文结束】

