如果医生能够在重症监护病房中及时收到警报,提醒他们患者的病情迅速恶化或生命体征出现异常,那将对挽救生命大有裨益。尽管目前的机器学习模型正在尝试实现这一目标,但弗吉尼亚理工大学最近发表在《Communications Medicine》上的一项研究表明,这些模型在院内死亡率预测方面表现不佳,无法识别66%的危急情况。
“只有当预测能够准确识别患者的危急状况时,它们才是有价值的。它们需要能够识别出健康状况恶化的患者,并及时提醒医生。”弗吉尼亚理工大学计算机科学系教授、Sanghani 人工智能与数据分析中心附属教员 Danfeng "Daphne" Yao 说。
“我们的研究发现,当前机器学习模型的响应能力存在严重缺陷,”Yao 说。“我们评估的大多数模型都无法识别危急的健康事件,这是一个重大问题。”
为了进行这项研究,Yao 和计算机科学博士生 Tanmoy Sarkar Pias 与以下人员合作:
- Oak Ridge 国家实验室(田纳西州)的 Sharmin Afrose
- 孟加拉国达卡 Greenlife 医学院医院的 Moon Das Tuli
- 亚利桑那大学医学院和图森 Banner 大学医学中心的 Ipsita Hamid Trisha
- 弗吉尼亚理工大学统计系的 Xinwei Deng
- 德克萨斯大学奥斯汀戴尔医学院精神病学和行为科学系的 Charles B. Nemeroff
他们的论文《机器学习模型对危急或恶化健康状况响应能力低》表明,仅凭患者数据不足以教会模型如何确定未来的健康风险。通过“测试患者”校准医疗模型有助于揭示模型的真实能力和局限性。
该团队开发了多种医学测试方法,包括梯度上升法和神经激活图。神经激活图中的颜色变化显示了机器学习模型对患者病情恶化的反应程度。梯度上升法可以自动生成特殊的测试案例,使评估模型的质量变得更加容易。
“我们系统地评估了机器学习模型对严重医疗状况的响应能力,使用了新的测试案例,其中一些是时间序列,即使用在固定间隔收集的一系列观察值来预测未来值,”Pias 说。“在医生的指导下,我们的评估涉及多个机器学习模型、优化技术以及两个临床预测任务的四个数据集。”
除了在院内死亡率预测中未能识别66%的危急情况外,某些情况下,这些模型还未能为所有测试案例生成足够的死亡风险评分。研究还发现了五年乳腺癌和肺癌预后模型响应能力类似的不足。
Yao 表示,这些发现为未来使用机器学习和人工智能(AI)的医疗研究提供了重要信息,因为它们表明,仅从患者数据训练的统计机器学习模型远远不够,并且存在许多危险的盲点。为了多样化训练数据,可以利用战略性开发的合成样本,Yao 的团队在2022年探索了这种方法,以提高少数族裔患者的预测公平性。
“一个更根本的设计是将医学知识深入融入临床机器学习模型中,”她说。“这是高度跨学科的工作,需要一支同时具备计算和医学专业知识的大团队。”
与此同时,Yao 的团队正在积极测试其他医疗模型,包括大型语言模型,以评估其在脓毒症检测等时间敏感临床任务中的安全性和有效性。
“AI 安全测试是一场与时间的赛跑,因为公司正纷纷将产品投入医疗领域,”她说。“透明和客观的测试是必须的。AI 测试有助于保护人们的生命,这也是我的团队致力于做的事情。”
(全文结束)

