研究人员在《自然医学》杂志上发表的一项最新研究开发了 TxGNN,这是一种用于零样本药物再利用的基于图的基础模型。只有 5%至 7%的罕见病有获批药物。扩大现有药物用于新适应症有助于减轻全球疾病负担。药物再利用利用现有的安全性和有效性数据,能够加快临床转化并降低开发成本。
预测所有疾病的药物疗效可能有助于选择副作用更少的药物,为疾病通路中的多个靶点设计更有效的治疗方法,并将现有药物重新用于新的治疗用途。
通过分析医学知识图谱(KGs),可以将药物效果与新的适应症相匹配。虽然计算方法已经确定了再利用的候选药物,但存在两个重大挑战。首先,这些方法假定需要对已经有药物的疾病进行治疗预测。
TxGNN 利用涵盖 17,080 种疾病和 7,957 种药物的大规模医学知识图谱,以前所未有的准确性预测药物的适应症和禁忌症。
其次,大多数模型倾向于根据与现有治疗方法的相似性来识别药物,这无法解决没有可用治疗方法的疾病。对于临床应用,机器学习模型必须进行零样本预测,即为分子理解有限且无获批药物的疾病预测药物。然而,现有模型的这种能力明显较低。
TxGNN 通过实施零样本药物再利用方法解决了这一差距,使用图神经网络(GNN)和专门基于疾病相似性的度量学习模块,将知识从可治疗的疾病转移到那些无法治疗的疾病。
研究与发现
在本研究中,研究人员开发了 TxGNN,这是一种用于零样本药物再利用的图基础模型,预测再利用的候选药物,包括那些目前缺乏治疗方法的疾病。TxGNN 由 1)基于图神经网络(GNN)的编码器,2)基于疾病相似性的度量学习解码器,3)全关系随机预训练及微调,4)多跳图解释模块组成。
TxGNN 在医学 KG 上进行训练,整理了 17,080 种疾病数十年的研究成果。此外,还开发了多跳 TxGNN 解释器,通过可解释的医学知识路径将药物 - 疾病对联系起来,便于对候选药物进行解释。该解释器为人类专家提供了透明的多跳解释,增强了对人工智能生成预测的信任。
模型性能在各种保留数据集上进行评估。保留数据集是通过从 KG 中抽样疾病生成的,这些疾病在训练期间被省略,稍后用作测试案例。这些保留的疾病是随机选择或专门选择以评估零样本预测。
TxGNN 与包括自然语言处理模型 BioBERT、GNN 方法如 HGT 和 HAN 以及网络医学统计技术在内的八种最先进的方法进行了比较。在标准基准策略下,即在测试集中的疾病在训练期间已经有一些适应症或禁忌症时,TxGNN 在 AUPRC(精度 - 召回曲线下面积)的适应症方面比最强的方法 HAN 高出 4.3%。
接下来,团队在零样本再利用下评估模型,其中模型需要为缺乏治疗方法的疾病预测治疗候选药物。在这种情况下,TxGNN 在药物适应症方面的 AUPRC 增加了 49.2%,在禁忌症方面增加了 35.1%,相比之下,下一个最佳模型。
这些收益特别显著,因为传统模型在零样本设置中挣扎,在没有可用的先验药物 - 疾病关系进行训练的情况下。TxGNN 还在九个疾病领域的严格设置中进行了评估,在药物适应症方面实现了 0.5%至 59.3%的 AUPRC 增益,在禁忌症方面实现了 11.8%至 35.6%的增益。
使用来自 120 万患者的电子病历(EMRs)进行的现实世界验证证实,TxGNN 的顶级药物预测与实际的标签外处方一致。
在这种情况下,TxGNN 相对于现有模型表现出一致的性能改进,在药物适应症方面的 AUPRC 增益在 0.5%至 59.3%之间,在禁忌症方面的增益在 11.8%至 35.6%之间。此外,还与科学家和临床医生进行了一项试点研究。参与者包括两名药剂师、五名临床医生和五名临床研究人员。他们被要求评估 16 个 TxGNN 预测,其中 12 个是准确的。
记录了参与者对每个预测的探索时间、评估准确性和置信度得分。当提供解释时,他们的信心和准确性显著提高。此外,在任务后的访谈和问卷调查中,参与者对 TxGNN 解释器表示更满意,91.6%的参与者认为 TxGNN 的预测和解释是有价值的。
相比之下,75%的人不同意在没有解释的情况下依赖 TxGNN 的预测。接下来,团队评估了预测的药物及其解释是否与以下罕见疾病的医学推理一致:Kleefstra 综合征、Ehlers-Danlos 综合征和抗利尿激素不适当分泌综合征(NSIAD)。
该评估方案包括三个阶段。首先,人类专家查询 TxGNN 以确定潜在的可再利用药物。接下来,查询 TxGNN 解释器以说明为什么考虑该药物。在第三阶段,分析独立的医学证据以验证 TxGNN 的预测和解释。
该模型分别为 Kleefstra 综合征、Ehlers-Danlos 综合征和 NSIAD 确定了唑吡坦、维甲酸和亚硝酸异戊酯。在所有情况下,TxGNN 的解释都与医学证据一致。
通过电子病历进行现实世界验证
研究人员使用来自卫生系统的电子病历(EMRs)策划了一个超过 120 万成年人的队列,这些成年人至少有一种药物处方和疾病,并测量了药物 - 疾病共现的富集情况。此验证将 TxGNN 的预测与现实世界的临床使用相匹配。
富集估计为使用某种药物治疗某种疾病的几率与使用该药物治疗其他疾病的几率之比。总体而言,得出了 619,200 个对数(优势比)[log(OR)]值。TxGNN 为每个 EMR 表型疾病生成了治疗候选药物的排名列表。
与疾病相关的药物被省略,新的候选药物被分类为排名最高、前 5 名、前 5%和后 50%。排名最高的预测药物的平均 log(OR)值比后 50%预测的平均 log(OR)值高约 107%,表明 TxGNN 的预测与临床医生的标签外处方非常吻合。
结论
总之,该研究开发了用于零样本药物再利用的 TxGNN,专门针对数据有限和治疗选择有限的疾病。TxGNN 通过为其预测提供多跳可解释的解释,始终优于现有方法,增强了临床工作流程中的信任和可用性。此外,预测的药物与人类专家的医学共识相匹配,并与电子病历中的标签外处方率一致。
TxGNN 的多跳可解释的解释提供了一个新的透明度水平,促进了信任并增强了模型在临床工作流程中的整合。
期刊参考:
Huang K, Chandak P, Wang Q, et al. A foundation model for clinician-centered drug repurposing. Nature Medicine, 2024, DOI: 10.1038/s41591-024-03233-x,

