最新研究揭示了机器学习(ML)死亡预测模型在响应能力方面的严重缺陷。
发表在《自然通讯医学》上的这项研究发现,仅基于患者数据训练的ML死亡预测模型未能识别出大约66%可能导致患者在医院内死亡的伤害。
研究人员使用多种医疗ML测试方法,包括梯度上升法和神经激活图,利用公开的重症监护病房(ICU)或癌症患者的健康和指标数据集测试了模型的准确性。
研究发现,院内死亡预测模型未能对呼吸过缓(低呼吸率)或低血糖状况发出警报。
当给定代表不同伤害程度的测试案例时,神经网络模型给出了不一致的风险预测,将更高的死亡风险分配给中度伤害,而对严重伤害则分配了不成比例的较低风险。
除了ML死亡预测模型的缺陷外,研究还发现了五年乳腺癌和肺癌预测模型类似的响应问题。
“我们的研究结果强调了测量临床ML模型对严重患者状况响应的重要性,”研究作者写道。“我们的结果显示,大多数测试的ML模型无法充分响应病情严重的患者,即使多个生命体征极度异常。”
该研究强调了使用基于医学知识的测试来确保ML模型准确性的重要性,以及在模型设计中纳入医学知识的必要性。此外,研究人员呼吁在医疗领域引入新的ML响应性指标。
“ML响应性是一个新问题,”他们写道。“它不同于已经广泛研究的ML鲁棒性。ML鲁棒性旨在确保模型的稳定性和抗样本扰动的能力,使小的(恶意注入的)噪声不会改变预测结果。”
Lipschitz常数是常见的ML鲁棒性指标,用于衡量模型对噪声数据和扰动的抵抗力。然而,作者指出,针对医疗用例优化Lipschitz常数可能会导致模型对患者状况变化更加不敏感,从而降低模型捕捉关键输入变化的能力。
“我们的工作首次深入探讨了ML响应性,”他们写道。“需要在其他医疗环境中进行更全面的测量研究。”
(全文结束)

