一项新的研究探讨了机器学习模型在识别未诊断的阵发性夜间血红蛋白尿(PNH)病例中的潜在应用。PNH是一种罕见且危及生命的血液疾病,由于其广泛的症状和医疗保健提供者对该病缺乏认识,常常被误诊或漏诊。研究结果支持了机器学习人工智能(AI)在检测电子健康记录(EHR)数据中罕见病症的能力,有可能改变PNH等疾病的诊断格局。
“英国35%的PNH患者报告称,在确诊前至少有12个月的症状,13%的患者至少有一次误诊,”研究指出。“在当前的数据中,大约80%的PNH患者在确诊前的结构化初级护理电子健康记录中有相关特征,有可能更早诊断。”
每年大约有6人每百万人口被诊断为PNH。该病通常影响30至40岁的男性和女性,女性略多于男性。PNH在骨髓疾病如再生障碍性贫血或骨髓增生异常综合征的患者中更为常见。PNH患者会出现溶血、血栓形成和器官损伤。研究人员强调,由于PNH的症状多样且与其他常见疾病重叠,因此诊断该病非常困难。这导致患者经常经历诊断延迟或误诊,从而延长了不当治疗的时间并增加了并发症的风险。
为了解决这一问题,研究人员利用Optimum Patient Care Research Database(OPCRD)的数据开发了一种机器学习算法,这是首次尝试使用结构化的EHR数据来区分PNH和非PNH病例的研究。研究包括了131名PNH患者和593,838名非PNH患者的对照组,这些数据来自OPCRD的全科医生记录。研究人员使用基于树的XGBoost模型,根据临床特征(如症状、诊断和医疗保健利用模式)对患者进行分类。关键特征包括常与PNH相关的疾病,如再生障碍性贫血、全血细胞减少症和布加氏综合症。
数据处理涉及严格的清理步骤,包括删除重复记录和排除没有相关临床特征的患者。经过数据集的优化后,最终分析是在一个反映约1例PNH病例对4533例对照的比例的样本上进行的。
回忆率、特异性和阳性预测值
机器学习模型在识别PNH高风险患者方面表现出色。在评估回忆率时,模型正确识别了27%(95%置信区间,15%至39%)的PNH阳性病例。在这些被识别的病例中,超过60%的人之前已经确诊为PNH,表明这些患者的特征与已确诊的PNH患者相似。在评估模型的特异性性能时,研究人员发现99.99%的对照组被正确分类为阴性,支持了模型在排除非PNH病例方面的准确性。初始阳性预测值(PPV)为60.4%(95%置信区间,33%至82%),表明超过一半的标记患者在其记录中已有PNH诊断。然而,当研究人员调整了PNH的罕见性(每10万人中3.81例)后,PPV降至19.59%(95%置信区间,7.63%至41.81%),这意味着大约五分之一的标记患者可能需要进一步调查PNH。
模型的顶级预测特征包括再生障碍性贫血、全血细胞减少症、溶血性贫血、骨髓增生异常综合征和布加氏综合症(P < .0001),此外还包括血液学和泌尿科转诊以及特定血液检查的相关因素。
解决PNH的漏诊问题
研究人员指出,OPCRD中发现的PNH患病率低于预期,这可能是由于漏诊或一般实践记录中的编码不准确所致。鉴于这一差异,机器学习可能在缩小这一差距方面发挥重要作用,为临床医生提供一种新的工具,以在患者临床历程的早期识别PNH高风险患者。
通过将PNH的临床理解与机器学习技术相结合,该模型为在大型健康数据集中筛查罕见疾病提供了新的方法。研究指出,如果进一步验证成功,该算法可以应用于实时健康数据,使临床医生能够更及时地识别潜在的PNH病例,最终减少诊断延迟并改善患者预后。
局限性和未来研究
研究依赖交叉验证意味着无法报告确切的标记病例数量;研究人员提供了平均指标来代表性能。他们承认,进一步在更广泛和更多样化的数据集上进行验证是必要的,才能在临床实践中部署该算法。然而,这种AI机器学习方法为利用机器学习改善罕见疾病的诊断奠定了基础,而传统方法在这方面往往表现不佳。
“我们的结果显示,每五个被算法标记的病例中,就有一个可能是PNH患者。需要进一步的工作来验证和评估独立样本中的性能,最终目标是实现现实世界的部署,”研究人员总结道,“如果成功,该工具有可能减少PNH患者的诊断延迟。”
参考文献
- Worker A, Mahon H, Sams J, et al. A machine learning algorithm for the detection of paroxysmal nocturnal haemoglobinuria (PNH) in UK primary care electronic health records. Orphanet J Rare Dis. 2024;19(1):378. Published 2024 Oct 13. doi:10.1186/s13023-024-03406-4
- Paroxysmal Nocturnal Hemoglobinuria. Cleveland Clinic. Updated April 25, 2022. Accessed October 30, 2024.
(全文结束)

