摘要
背景与目标:计算药物重定位方法生成具有未经校准置信度分数的候选列表,缺乏统计保证,限制了其在治疗领域间资源分配的转化应用价值。我们提出一个计算框架,将共形预测应用于基于知识图谱的药物重定位,为药物-疾病适应症预测提供无分布假设的覆盖率保证。
方法:我们从Open Targets平台(版本26.03)构建了640万个药物-疾病对,并设计了30个特征,涵盖证据源分数、蛋白质-蛋白质相互作用网络拓扑、疾病本体相似性和药物化学指纹相似性。使用严格的时序验证(训练:证据年份≤2019;校准:2020-2022;测试:2023-2025年FDA批准)训练XGBoost分类器。应用边缘分裂共形预测和跨七个治疗领域的莫迪安(组条件)共形预测来生成校准的预测集。使用两种基线模型——逻辑回归和异质GraphSAGE图神经网络——评估模型无关性。通过置换诊断测试交换性。
结果:XGBoost在测试集上达到AUROC 0.906(95%自助CI:0.874-0.933),优于GraphSAGE(0.833)和逻辑回归(0.795)。在90%标称水平下的边缘共形预测实现了91.1%的经验覆盖率(95% CI:88.5-93.5%),平均预测集大小为1.09;91%的预测集为决定性单例。莫迪安共形预测在各治疗领域保持了87.8%至100%的组条件覆盖率。交换性未被拒绝(置换p=0.514)。案例研究证实该模型能够识别有效的重定位候选药物(二甲双胍用于结核病,美曲普汀用于2型糖尿病),但也揭示知识图谱编码了无极性的机制关联,以同等置信度预测治疗机会和禁忌症。
结论:共形预测为计算药物重定位中的校准不确定性量化提供了一个严格的、与模型无关的框架。该框架在时间上保留的药物批准上实现了有效的覆盖率保证,同时保持主要是决定性的预测集,并适用于任何基础分类器。
关键词:药物重定位、共形预测、不确定性量化、知识图谱、Open Targets、XGBoost
【全文结束】

