1 引言
1.1 背景
在药物研发领域,预测未经临床试验或真实世界验证的药物疗效一直是个重大挑战。本文提出了一种灵活且模块化的机器学习方法,通过整合药物-通路权重影响评分集合与患者数据(包括人口特征和临床结局)来构建预测模型。该模型分析未验证药物在人类生物分子通路中的加权影响评分,生成疗效预测值。
1.2 相关研究
当前基于真实世界数据(RWD)的药物疗效预测主要集中在已获批药物。对于新型治疗药物,目前的预测方法受限于以下因素:
- 临床前数据主要关注替代生物标志物而非实际临床终点
- 缺乏有效整合临床患者特征复杂性的方法
- 需要建立新型药物表征体系
本研究借鉴自然语言处理中的词嵌入方法,通过构建药物分子结构和受影响通路的向量表示,实现新型药物与现有药物的相似性比较,从而预测疗效。
1.3 研究目的
本文旨在建立一个创新的预测框架,通过整合以下要素:
- 分子数据库识别新型药物特性(蛋白质相互作用、化学结构、分子通路作用)
- 构建药物表征向量
- 结合真实世界数据集与知识图谱
- 开发可扩展的治疗效果预测模型
2 材料与方法
2.1 治疗效果建模
采用反事实框架建模,估计在给定治疗A和患者协变量X=x的条件下,患者结局Y的期望值𝔼[Y|A=a,X=x]。模型假设满足交换性、正性、一致性等条件,使用XGBoost算法进行训练。
2.2 分子嵌入表示
2.3 基于SMILES的嵌入
采用Galactica预训练模型处理药物SMILES结构:
- 对SMILES字符串进行分词处理
- 提取解码器最后一层激活值(维度4096)
- 通过均值池化和主成分分析(PCA)降维至3维
2.4 基于KEGG的嵌入
通过KEGG知识图谱构建药物表征:
- 提取药物相关疾病、通路靶点信息
- 进行独热编码和TF-IDF转换
- 使用PCA降维至2维
2.5 验证方法
设计双重验证策略:
- 比较不同嵌入方法(独热编码、SMILES、KEGG)在未见治疗效果预测中的表现
- 分析药物嵌入特征与预测成功率的相关性
采用Bootstrap重采样(10次迭代),通过均方误差(MSE)评估模型性能。
3 结果与讨论
3.1 数据集
使用包含美国真实世界数据的Komodo Health数据库,覆盖:
- 14种溃疡性结肠炎治疗药物
- 患者人口统计学数据(2015年起)
- 医疗事件数据(诊断、手术、处方)
3.2 模型性能
KEGG嵌入方法在10种药物预测中表现优于基线模型,其中:
- 阿达木单抗成功率30%
- 英夫利昔单抗成功率100%
- 托法替尼成功率90%
3.3 关键发现
- 药物嵌入空间距离与预测成功率呈显著负相关(p<0.01)
- 新型药物与已知药物的欧氏距离每增加1单位,预测成功率下降28%
- KEGG嵌入在系统性治疗药物(如他克莫司)预测中表现最佳
4 局限性
- 依赖观察性数据的固有偏倚
- 新型药物需在嵌入空间与已知药物存在重叠
- 当前嵌入方法未考虑给药途径(局部vs全身)
5 未来工作
- 开发基于知识图谱的node2vec嵌入方法
- 结合双重机器学习估计治疗效果差异
- 构建合成数据验证框架
- 探索跨适应症预测能力
6 结论
本研究建立了首个整合分子通路信息与真实世界数据的药物疗效预测框架。通过构建药物分子的向量表示,实现新型治疗药物疗效的早期预测。实验表明,药物在嵌入空间中的位置与其预测成功率显著相关,该方法可加速药物研发流程并降低临床试验风险。
【全文结束】