根据Ravi Parikh的说法,疫情期间设计用于增强医疗服务的几种算法性能有所下降。在宾夕法尼亚大学卫生系统,医生们利用一种人工智能算法预测患者死亡风险,以帮助癌症患者进行艰难的治疗决策和讨论临终关怀偏好。然而,这种工具并非一劳永逸。一项2022年的研究发现,该算法在新冠疫情期间性能恶化,预测死亡率的能力下降了7个百分点。
这一变化可能产生了现实影响。作为该研究的主要作者,埃默里大学肿瘤学家Ravi Parikh告诉KFF Health News,该工具多次未能提醒医生与需要此类讨论的患者进行重要对话,这可能导致不必要的化疗。Parikh认为,不仅宾夕法尼亚医学的算法,许多其他旨在提升医疗服务的算法也在疫情期间减弱了性能。“许多机构并未常规监测其产品的性能”,Parikh表示。
算法故障是计算机科学家和医生长期承认但开始困扰医院管理层和研究人员的一个难题:人工智能系统需要持续的监控和人员配置,以确保其正常运行。本质上,需要更多的人力和机器来确保新工具不会出错。
斯坦福健康护理首席数据科学家Nigam Shah表示:“每个人都认为AI会帮助我们改善访问、容量和护理质量等,这些都是美好的愿景,但如果它使护理成本增加了20%,那是否可行呢?”
政府官员担心医院缺乏资源来验证这些技术的有效性。FDA专员Robert Califf在一个最近的AI专题小组上表示:“我到处寻找,我不相信美国有任何一个健康系统能够在临床护理系统中验证一个AI算法。”
AI在医疗保健领域的应用已经非常广泛。算法用于预测患者的死亡或恶化风险,提出诊断建议或进行患者分流,记录和总结就诊情况以减轻医生的工作负担,以及批准保险索赔。如果技术乐观者的预测成真,这项技术将成为普遍且有利可图的。投资公司Bessemer Venture Partners已经确定了大约20家专注于医疗保健的AI初创企业,每家预计每年收入可达1000万美元。FDA已批准了近一千种人工智能产品。
评估这些产品是否有效具有挑战性,而评估它们是否持续有效或是否存在软件故障更为复杂。例如,耶鲁医学的一项研究评估了六个“早期预警系统”,这些系统会在患者可能出现快速恶化时提醒临床医生。芝加哥大学医生兼提供其中一个算法的公司联合创始人Dana Edelson表示,超级计算机运行了几天的数据,结果显示六种产品的性能存在巨大差异。
对于医院和提供者来说,选择最适合他们需求的最佳算法并不容易。普通医生身边没有超级计算机,也没有针对AI的《消费者报告》。“我们没有任何标准”,美国医学会前任主席Jesse Ehrenfeld表示,“目前没有任何标准可以用来评估、监控或查看部署后的模型或算法(无论是AI驱动还是其他)的性能。”
医生办公室中最常见的AI产品之一是环境记录,这是一种技术支持的助手,可以听取并总结患者的就诊情况。去年,Rock Health的投资者追踪到有3.53亿美元流入这些记录公司。但是,Ehrenfeld说,“目前没有标准可以比较这些工具的输出结果。”
即使是小错误也可能造成严重后果。斯坦福大学的一个团队尝试使用大型语言模型(如ChatGPT背后的流行AI工具)来总结患者的病史,并将其与医生的记录进行了比较。“即使在最好的情况下,这些模型的错误率也达到了35%”,Shah表示,“在医学中,如果你在写总结时遗漏了一个词,比如‘发烧’——这确实是个问题,对吧?”
有时算法失效的原因相当合理。例如,基础数据的变化可能会削弱其有效性,如医院更换实验室提供商。然而,有时问题的出现毫无明显原因。
波士顿麻省总医院个性化医学项目的技术主管Sandy Aronson表示,当他的团队测试一款旨在帮助遗传咨询师查找有关DNA变异相关文献的应用程序时,该产品出现了“不确定性”——即在短时间内多次询问相同问题时,给出不同的答案。Aronson对大型语言模型在帮助过载的遗传咨询师方面充满期待,但他也认为“技术需要改进”。
如果度量标准和规范稀缺,且错误可能以奇怪的原因出现,那么机构该怎么办?投入大量资源。在斯坦福,Shah表示,仅为了审计两个模型的公平性和可靠性就花费了8到10个月的时间和115个人工小时。
受访的KFF Health News专家提出了让人工智能监控人工智能的想法,再由一些(人类)数据专家进行监督。所有人都承认这需要组织投入更多资金——在医院预算有限和AI技术专家供应不足的情况下,这是一个艰难的要求。
“拥有一个愿景,我们融化冰山以监控模型,这听起来很棒”,Shah说,“但这真的是我想要的吗?我们还需要多少人手?”
(全文结束)

