医疗保健AI旨在节省资金,却需要大量昂贵的人力Health care AI, intended to save money, requires a lot of expensive humans

环球医讯 / AI与医疗健康来源:www.wusf.org美国 - 英语2025-01-12 22:00:00 - 阅读时长5分钟 - 2008字
尽管医疗行业中对人工智能充满期待,但这些系统需要持续监控和人员配置才能正常运行,许多医疗机构并未充分意识到这一点,导致一些AI工具在疫情期间性能下降,未能有效辅助医生决策,甚至可能影响患者治疗选择。
医疗保健AI人工智能算法监控人员配置癌症患者临终愿望预测死亡几率性能成本FDA早期预警系统记录总结病史错误率遗传咨询师公平性可靠性
医疗保健AI旨在节省资金,却需要大量昂贵的人力

尽管医学界对人工智能充满期待,但这些系统需要持续的监控和人员配置来实施和维护。

为癌症患者准备艰难的决策是肿瘤学家的工作。然而,他们并不总是记得去做这件事。在宾夕法尼亚大学卫生系统,医生们被一个人工智能算法提示,该算法预测患者的死亡几率,以促使医生讨论患者的治疗方案和临终愿望。

但这远不是一个“设置后就无需再管”的工具。一项2022年的研究显示,在新冠疫情期间,该算法的表现恶化了7个百分点,预测谁会死亡的能力下降。很可能存在现实影响。埃默里大学的肿瘤学家Ravi Parikh是这项研究的主要作者,他告诉KFF Health News,这个工具多次未能提醒医生与需要讨论重要事项的患者进行沟通——这可能会避免不必要的化疗。

Parikh认为,不仅仅是宾夕法尼亚大学医学中心的算法在疫情期间减弱,其他多个旨在增强医疗服务的算法也受到了影响。“许多机构并没有常规监测其产品的性能”,Parikh说道。

算法故障只是计算机科学家和医生长期以来承认的问题的一部分,但现在这个问题开始让医院高管和研究人员感到困惑:人工智能系统需要持续的监控和人员配置来确保其正常工作。

本质上:你需要更多的人力和机器来确保新工具不会出错。

斯坦福医疗保健的首席数据科学家Nigam Shah表示:“每个人都认为AI将帮助我们提高访问和容量,改善护理等。所有这些都是美好的,但如果它使护理成本增加了20%,这是否可行?”

政府官员担心医院缺乏资源来验证这些技术。FDA专员Robert Califf在最近的一次机构AI小组会议上说:“我四处寻找,我不相信美国有任何一个医疗系统能够在临床护理系统中验证一个AI算法。”

AI已经在医疗保健中广泛应用。算法用于预测患者的死亡或恶化的风险,建议诊断或分流患者,记录和总结访问以节省医生的工作量,以及批准保险索赔。

如果技术乐观主义者是对的,这项技术将成为无处不在且有利可图。投资公司Bessemer Venture Partners已经确定了一些健康AI初创公司,预计每年将实现1000万美元的收入。FDA已经批准了近一千种人工智能产品。

评估这些产品是否有效具有挑战性。评估它们是否继续有效——或是否出现了软件等同于爆缸或漏油的问题——更加棘手。

例如,耶鲁医学院最近的一项研究评估了六种“早期预警系统”,这些系统会在患者可能出现快速恶化时提醒临床医生。芝加哥大学的医生Dana Edelson和一家提供研究中一种算法的公司的联合创始人表示,超级计算机运行了几日的数据,结果表明这六种产品之间的表现差异巨大。

对于医院和提供者来说,选择最适合他们需求的最佳算法并不容易。普通医生没有超级计算机可用,也没有类似《消费者报告》的AI评估标准。

“我们没有任何标准”,美国医学会前主席Jesse Ehrenfeld说,“现在没有任何标准可以指导你如何评估、监控、查看部署后的模型或算法的性能。”

医生办公室中最常见的AI产品之一是环境记录,这是一种技术辅助助手,可以听取和总结患者访问。去年,Rock Health的投资者追踪到有3.53亿美元流入这些记录公司。但是,Ehrenfeld说,“目前没有比较这些工具输出的标准。”

这是一个问题,即使小错误也可能造成灾难性后果。斯坦福大学的一个团队尝试使用大型语言模型——即像ChatGPT这样的流行AI工具的技术——来总结患者的病史。他们将结果与医生的记录进行了比较。

“即使在最好的情况下,模型的错误率也有35%”,斯坦福大学的Shah说。在医学中,“当你写总结时遗漏了一个词,比如‘发烧’——这确实是一个问题,对吧?”

有时,算法失效的原因相当合理。例如,底层数据的变化会削弱其有效性,如当医院更换实验室提供商时。

然而,有时候,陷阱毫无缘由地出现。

波士顿麻省总医院个性化医学项目的科技主管Sandy Aronson表示,当他的团队测试一个旨在帮助遗传咨询师查找有关DNA变异的相关文献的应用程序时,该产品表现出“不确定性”——也就是说,当在短时间内多次询问同一个问题时,它给出了不同的结果。

Aronson对大型语言模型为负担过重的遗传咨询师总结知识的潜力感到兴奋,但他表示“技术需要改进”。

如果度量标准和规范稀缺,错误也会以奇怪的方式出现,那么机构该怎么办呢?投入大量资源。在斯坦福大学,Shah说,审计两个模型的公平性和可靠性花费了8到10个月的时间和115个人工小时。

接受KFF Health News采访的专家提出了让人工智能监控人工智能的想法,再由一名(人类)数据专家同时监控两者。所有人都承认,这将要求组织花费更多的钱——考虑到医院预算的现实和AI技术专家的有限供应,这是一个艰难的要求。

“拥有一个愿景,通过融化冰山来让模型监控其自身模型,这固然很好”,Shah说,“但这真的是我想要的吗?我们还需要多少人?”


(全文结束)

大健康

猜你喜欢

  • 医疗保健AI本应节省资金,结果却需要大量昂贵的人力医疗保健AI本应节省资金,结果却需要大量昂贵的人力
  • 人工智能预测分析如何改变医疗保健并降低成本人工智能预测分析如何改变医疗保健并降低成本
  • 医疗保健AI旨在节省资金,结果却需要大量昂贵的人力医疗保健AI旨在节省资金,结果却需要大量昂贵的人力
  • 希波克拉底AI筹集1.41亿美元用于在医院部署临床AI代理希波克拉底AI筹集1.41亿美元用于在医院部署临床AI代理
  • FDA发布关于AI赋能医疗器械的草案指南FDA发布关于AI赋能医疗器械的草案指南
  • 医疗保健领导者在本顿维尔会议中强调人工智能在医疗保健中的应用医疗保健领导者在本顿维尔会议中强调人工智能在医疗保健中的应用
  • AMD投资Absci加强在药物发现领域的人工智能芯片存在AMD投资Absci加强在药物发现领域的人工智能芯片存在
  • 最先进的AI预测人类细胞中的基因活动最先进的AI预测人类细胞中的基因活动
  • ALAFIA AI的超级计算机如何加速医疗保健领域的人工智能工作流程ALAFIA AI的超级计算机如何加速医疗保健领域的人工智能工作流程
  • 医疗保健AI本应节省资金,结果却需要大量昂贵的人力医疗保健AI本应节省资金,结果却需要大量昂贵的人力
大健康
大健康

热点资讯

大健康

全站热点

大健康

全站热文

大健康