如果医生能够在重症监护病房(ICU)中及时收到患者病情迅速恶化或生命体征异常的警报,这将极大地有助于挽救生命。尽管现有的机器学习模型正在尝试实现这一目标,但弗吉尼亚理工大学最近发表在《通讯医学》上的一项研究表明,这些模型在住院死亡率预测方面表现不佳,未能识别出66%的危急情况。
“只有当预测能够准确识别患者的危急状况时,它们才是有价值的。这些模型需要能够识别健康状况恶化的患者,并及时提醒医生,”计算机科学系教授、桑加尼人工智能与数据分析中心附属教员Danfeng "Daphne" Yao表示。“我们的研究发现,当前机器学习模型的响应能力存在严重缺陷,大多数我们评估的模型无法识别危急健康事件,这是一个主要问题。”
为了进行这项研究,Yao和计算机科学博士生Tanmoy Sarkar Pias与橡树岭国家实验室的Sharmin Afrose、孟加拉国达卡Greenlife医学院医院的Moon Das Tuli、亚利桑那大学医学院和图森Banner大学医学中心的Ipsita Hamid Trisha、弗吉尼亚理工大学统计学系的Xinwei Deng以及德克萨斯大学奥斯汀戴尔医学院精神病学和行为科学系的Charles B. Nemeroff合作。他们的论文表明,仅凭患者数据不足以教会模型如何确定未来的健康风险。通过使用“测试患者”来校准医疗保健模型,可以帮助揭示模型的真实能力和局限性。
该团队开发了多种医学测试方法,包括梯度上升法和神经激活图。神经激活图中的颜色变化可以显示机器学习模型对患者病情恶化的反应程度。梯度上升法可以自动生成特殊的测试案例,从而更容易评估模型的质量。“我们系统地评估了机器学习模型对严重医疗状况的响应能力,使用了新的测试案例,其中一些是时间序列,即利用定期收集的一系列观察值来预测未来值,”Pias说。“在医生的指导下,我们的评估涉及多个机器学习模型、优化技术和四个数据集,用于两项临床预测任务。”
除了在住院死亡率预测方面未能识别66%的损伤外,这些模型在某些情况下还未能为所有测试案例生成足够的死亡风险评分。研究还发现,五年乳腺癌和肺癌预后模型的响应能力也存在类似的缺陷。
这些发现对未来的医疗保健研究具有重要意义,Yao表示,因为它们表明仅从患者数据训练的统计机器学习模型远远不够,存在许多危险的盲点。为了多样化训练数据,可以利用战略性开发的合成样本,Yao的团队在2022年探索了这种方法,以增强少数族裔患者的预测公平性。“更根本的设计是将医学知识深入融入临床机器学习模型,”她说。“这是高度跨学科的工作,需要一个拥有计算和医学专业知识的大团队。”
与此同时,Yao的团队正在积极测试其他医疗模型,包括大型语言模型,以确保其在时间敏感的临床任务中的安全性和有效性,例如脓毒症检测。“AI安全性测试是一场与时间赛跑的比赛,因为公司正在向医疗领域投入大量产品,”她说。“透明和客观的测试是必须的。AI测试有助于保护人们的生命,这是我们团队的承诺。”
(全文结束)

