准备癌症患者应对艰难的决策是肿瘤医生的工作。然而,他们并不总是记得去做这件事。在宾夕法尼亚大学健康系统中,医生们被一种预测死亡几率的人工智能算法提醒,讨论患者的治疗和临终偏好。
但这远不是一种“设置后即可忘记”的工具。一次常规的技术检查发现,该算法在新冠疫情期间性能衰退,预测谁会死亡的准确性下降了7个百分点,根据2022年的一项研究。
埃默里大学的肿瘤学家拉维·帕里克(Ravi Parikh),同时也是这项研究的主要作者,告诉KFF Health News,该工具多次未能提示医生与需要这种重要讨论的患者进行对话——这可能避免了不必要的化疗。
帕里克认为,在疫情期间,多个旨在增强医疗服务的算法都出现了弱化,而不仅仅是宾夕法尼亚大学医学中心的那个。“许多机构并未定期监测其产品的性能”,帕里克说。
算法故障是计算机科学家和医生长期以来承认但开始困扰医院管理人员和研究人员的一个难题:人工智能系统需要持续的监控和人员配置,以确保它们正常工作。
“每个人都认为AI将帮助我们提高访问和容量,改善护理等”,斯坦福医疗保健的首席数据科学家尼加姆·沙阿(Nigam Shah)说。“所有这些都是不错的目标,但如果它使医疗成本增加了20%,这是可行的吗?”
政府官员担心医院缺乏资源来验证这些技术。FDA专员罗伯特·卡利夫(Robert Califf)在一个最近的AI专题小组上表示:“我到处寻找,我不相信在美国有任何一个医疗系统能够在临床护理系统中验证一个AI算法。”
AI已经在医疗保健中广泛使用。算法用于预测患者的死亡或恶化风险,建议诊断或分流患者,记录和总结访问以减少医生的工作量,以及批准保险索赔。
如果技术乐观主义者是对的,这项技术将成为无处不在且有利可图的。投资公司Bessemer Venture Partners已经确定了大约20家专注于医疗的AI初创公司,每家公司每年有望实现1000万美元的收入。FDA已经批准了近一千种人工智能产品。
评估这些产品是否有效具有挑战性。评估它们是否继续有效——或者是否出现了软件故障——更加困难。
耶鲁医学最近的一项研究评估了六个“早期预警系统”,这些系统会在患者可能迅速恶化时提醒临床医生。芝加哥大学的医生达纳·埃德尔森(Dana Edelson)表示,超级计算机运行了几天的数据,展示了六种产品之间的巨大性能差异。
医院和提供者选择最适合他们需求的最佳算法并不容易。普通医生没有超级计算机,也没有针对AI的《消费者报告》。
“我们没有任何标准”,美国医学会前任主席杰西·埃伦菲尔德(Jesse Ehrenfeld)说。“今天我没有可以指向的任何东西,来说明如何评估、监控或查看部署后的模型或算法的性能,无论是否由AI驱动。”
也许医生办公室中最常见的AI产品是环境记录,这是一种技术辅助助手,可以听取并总结患者访问。去年,Rock Health的投资者追踪到有3.53亿美元流入这些记录公司。但是,埃伦菲尔德说,“目前没有标准可以比较这些工具的输出。”
当即使是小错误也可能造成毁灭性后果时,这是一个问题。斯坦福大学的一个团队尝试使用大型语言模型——如ChatGPT等流行AI工具背后的技术——来总结患者的病史。他们将结果与医生的书写进行了比较。
“即使在最好的情况下,模型的错误率也达到了35%”,斯坦福的沙阿说。在医学中,“当你写总结时,遗漏了一个词,比如‘发烧’——这意味着问题,对吧?”
有时,算法失败的原因是合理的。例如,基础数据的变化会削弱其有效性,如当医院更换实验室提供商时。
然而,有时陷阱毫无缘由地出现。
波士顿麻省总医院布里格姆个性化医学计划的技术主管桑迪·阿伦森(Sandy Aronson)表示,当他的团队测试一个帮助遗传咨询师查找有关DNA变异的相关文献的应用程序时,该产品遭遇了“非确定性”——即在短时间内多次询问同一个问题时,给出了不同的结果。
阿伦森对大型语言模型为负担过重的遗传咨询师总结知识的潜力感到兴奋,但他表示,“这项技术需要改进”。
如果指标和标准稀缺,错误可能会以奇怪的原因出现,那么机构应该怎么做呢?投入大量资源。在斯坦福,沙阿说,仅审计两个模型的公平性和可靠性就花费了8到10个月的时间和115个人工小时。
接受KFF Health News采访的专家提出了让人工智能监控人工智能的想法,再由一些(人类)数据专家同时监控两者。所有人都承认,这将要求组织花费更多资金——鉴于医院预算的现实和AI技术专家的有限供应,这是一个艰难的要求。
“有一个愿景,我们正在融化冰山以监控他们的模型”,沙阿说。“但这真的是我想要的吗?我们还需要多少人?”
(全文结束)

