人工智能已经用于帮助诊断患者状况数十年。但新的生成式人工智能(genAI)工具正迅速被医疗行业采用,并以多种方式使用,包括治疗建议。波士顿贝斯以色列医疗中心的医生兼研究员亚当·罗德曼博士(Dr. Adam Rodman)对一项实验的结果感到震惊,该实验比较了医生和生成式人工智能(genAI)工具的诊断能力。数据显示,即使在技术辅助下,医生在正确诊断患者方面仍不如单独使用的genAI,差距很大。“我重新运行了实验,结果令我大吃一惊,”罗德曼说,他同时也是贝斯以色列医疗中心的人工智能项目主任。“单独使用的AI几乎好20%,准确率达到90%。”“我们假设人类会比AI更好,坦率地说,当我们意识到AI并没有提高医生的表现,实际上单独使用的AI在正确诊断方面要好得多时,我们感到非常震惊,”他说。
这项由罗德曼和斯坦福大学医学院助理教授乔纳森·陈博士(Dr. Jonathan Chen)进行的研究是在2023年完成的;通常情况下,研究结果会在完成后一年多才发表。
另一项即将在《自然》杂志上发表的研究结果将更加令人惊讶,罗德曼说。“我们还在开发下一代模型和AI工具,以提高医生的能力。因此,我们还有多项其他研究将陆续发布。”罗德曼指出,最初的这项研究是在医疗系统推出安全的GPT模型供医生使用的同时进行的。因此,尽管这些技术在工作场所是新的,罗德曼和陈都相信,结合医生和genAI工具会产生比单独依赖技术更好的结果。“结果与‘信息学基本定理’背道而驰,该定理假设人类和计算机的结合应优于任何一个单独的表现,”陈说。“虽然我仍然希望这是真的,但这项研究的结果表明,需要经过深思熟虑的培训、整合和评估才能实现这一潜力。”
陈将医生使用genAI的情况与公众早期对互联网的理解进行了比较,指出如今像搜索、阅读文章和在线交易这样的日常活动被认为是理所当然的,但它们曾经是需要学习的技能。“同样,”陈说,“我预计我们都需要学习如何与聊天机器人AI系统互动的新技能,以引导和协商它们按照我们希望的方式行事。”
斯坦福大学医学院助理教授乔纳森·陈博士审查了GPT-4在诊断和推荐患者护理方面的数据。
AI在医疗领域的应用
医疗保健组织自20世纪70年代初以来就一直在利用机器学习和AI。1972年,AAPhelp成为最早的基于AI的助手之一,用于帮助诊断阑尾炎。
两年前,当OpenAI将GPT发布到公众中时,情况开始发生变化,医疗保健提供者迅速采用了这项技术,因为自然语言处理使AI工具更易于使用。
据IDC的医疗保健策略高级研究总监穆塔兹·谢格维(Mutaz Shegewi)称,到2025年,超过一半(53.2%)的美国医疗保健提供者的genAI支出将集中在聊天机器人和虚拟健康助手上。“这反映了使用genAI个性化患者参与和简化服务交付的重点,突显了其在患者护理转型和优化医疗保健运营方面的潜力,”谢格维说。
根据IDC的数据,39.4%的美国医疗保健提供者认为genAI是未来五年内将塑造医疗保健的三大技术之一。
像GPT-4这样的大型语言模型已经在全美各地的企业和政府机构中推广。虽然临床决策支持是genAI在医疗保健中的主要用途之一,但也有一些其他用途。例如,环境监听模型被用于记录医生和患者的对话,并自动为医生编写临床笔记。患者门户也在采用genAI,因此当患者向医生发送问题时,聊天机器人会撰写初步回复。
事实上,根据麻省理工学院斯隆管理学院的一项研究,医疗保健行业是AI技术的主要采用者之一。
2021年,全球医疗保健领域的AI市场价值超过110亿美元,预计到2030年将达到约1880亿美元,根据在线数据分析服务Statista的数据。2021年,全球约五分之一的医疗保健组织已经开始了使用AI的初期计划。
如今,超过70%的100名美国医疗保健领导者——包括支付方、提供方和医疗保健服务和技术(HST)团体——正在追求或已经实施了genAI能力,根据咨询公司麦肯锡的研究。
AI在当今医疗保健中的应用
AI主要用于临床决策支持,可以分析患者信息与科学文献、护理指南和治疗历史,并向医生提供诊断和治疗方案,根据医疗认证和计费公司Medwave的说法。
凯斯西储大学生物医学工程系助理主席科林·德拉蒙德(Colin Drummond)表示,深度学习算法等AI模型可以预测患者在出院后30天内的再入院风险,尤其是对于心力衰竭等疾病。
自然语言处理模型可以分析临床笔记和患者记录,提取相关信息,帮助诊断和治疗规划。德拉蒙德还指出,AI驱动的工具已经能够以高精度解释医学图像。“这可以减少医生在文档编制上花费的时间,”他说。“当然,这些结果需要由工作人员验证和确认,但这可以加快决策过程。”
例如,AI系统可以从视网膜图像中检测糖尿病视网膜病变,从X光片中识别腕部骨折,甚至可以从皮肤镜图像中诊断黑色素瘤。“在可报销的CPT编码方面,成像似乎处于领先地位,但许多其他筛查和诊断应用也正在开发中,”德拉蒙德说。
AI还可以通过早期干预减少再入院率,增强患者护理规划的风险计算器。它可以帮助按风险水平对患者进行分层,以便及时干预。“今天,AI在运营方面似乎更为普遍和有影响力,”德拉蒙德说。“这似乎是AI最成功货币化的领域。这涉及检查运营活动并寻找资产在护理中最佳使用和管理的方法。这不那么直接与临床决策相关,但支持可用于决策的数据。”
例如,约翰霍普金斯医学中心的研究人员创建了一个AI工具,以协助急诊室护士对患者进行分类。AI分析患者数据和医疗状况,推荐护理级别,并附带对其决策的解释——这一切都在几秒钟内完成。然后,护士分配最终的分类级别。
戴顿儿童医院使用了一个AI模型来预测儿科白血病患者对化疗药物的反应;准确率达到92%,有助于指导患者护理。
AI在医疗保健中的第二个用途是操作分析,算法分析系统、成本、风险和结果的复杂数据,以识别组织绩效中的差距和低效。
第三个主要用途是工作流程增强,AI自动化常规的行政和文档任务,使临床医生能够专注于更高价值的患者护理,德拉蒙德说。
贝斯以色列的罗德曼理解医生对计算机算法影响其决策和护理建议持怀疑态度,但他也很快指出,医疗保健专业人员也不是完美的。“记住,人类的基线并不好。我们知道每年有80万美国人因医疗提供者的诊断错误而死亡或严重受伤。所以,大型语言模型永远不会完美,但人类的基线也不完美,”罗德曼说。
genAI将成为临床决策的标准工具
根据Gartner Research的副总裁分析师维罗尼卡·沃克(Veronica Walk)的说法,关于genAI如何改变临床决策存在巨大的潜力和炒作。“供应商正在将其纳入他们的解决方案,临床医生已经在实践中使用它——无论是否由其组织提供或批准,”她说。
医疗保健主要关注两种类型的AI:机器学习(ML),它从示例中学习而不是预定义规则;自然语言处理(NLP),它使计算机能够理解人类语言并将非结构化文本转换为结构化、机器可读的数据。(一个ML的例子是,当它根据消费者的选择建议购买,如书籍或衬衫;而NLP分析客户反馈以识别情感趋势并指导产品改进。)
“所以,我们不只是看临床准确性,”罗德曼说。“我们还考虑了现实世界中医生需要做的事情,比如能够找出为什么你可能是错的。”
根据国家经济研究局(NBER)的一项研究,仅使用当前技术,AI在未来五年内可能会节省5%至10%的医疗保健支出,即每年2000亿至3600亿美元。
医院的主要节省来自增强临床运营的用例(如手术室优化)和提高质量和安全性,这涉及检测不良事件。医生群体主要受益于提高临床效率或工作量管理和连续护理(如转诊管理)。保险公司也从改善理赔管理、自动裁决和预先授权、减少可避免的再入院以及提供者关系管理中获益。
凯斯西储大学的德拉蒙德将医疗保健中的AI分为两类:
- 预测AI:使用数据和算法预测某些输出(如诊断、治疗建议、预后等)
- 生成AI:根据提示生成新输出(如文本、图像等)
genAI模型的问题在于,它们的聊天机器人可以模仿人类语言并快速返回详细且连贯的响应。“这些特性可能掩盖聊天机器人可能提供不准确信息的事实,”德拉蒙德说。
风险和AI偏见
罗德曼表示,与人类医生相比,GPT-4在因果关联诊断方面“非常糟糕”。“有一个案例,你需要认识到患者患有皮肌炎,这是一种对癌症反应的自身免疫性疾病,原因是结肠癌。大多数医生都认识到了患者患有结肠癌,而且这是导致皮肌炎的原因。GPT却陷入了困境,”他说。
IDC的谢格维指出,如果AI模型没有经过严格调优并设置适当的“护栏”或安全机制,技术可能会提供“看似合理但不正确的信息”,导致错误信息传播。“临床医生也可能因过度依赖AI输出而失去技能,从而削弱批判性思维,”谢格维说。“大规模部署可能会引发有关患者数据隐私和监管合规的问题。任何AI模型中固有的偏见风险也非常大,可能会伤害代表性不足的人群。”
此外,医疗保健保险公司越来越多地使用AI,但这并不总是符合患者的最佳利益。面对大量AI生成的患者护理拒绝,医生们正在反击——他们使用相同的技术来自动化上诉程序。
罗德曼指出,AI的一个优点是它非常擅长思考为什么它可能是错的。“因此,它在不符合假设方面表现出色,这是人类不太擅长的技能。我们不善于不同意自己。我们有认知偏差,”他说。
当然,AI也有自己的偏见,罗德曼指出。大型语言模型中的性别和种族偏见比例较高,但可能比人类更容易受到偏见的影响,他说。
即便如此,经典AI中的偏见问题由来已久,genAI有可能加剧这一问题,Gartner的沃克说。“我认为最大的风险之一是技术的发展速度超过了行业培训和准备临床医生检测、响应和报告这些偏见的能力,”她说。genAI模型由于训练数据集可能不成比例地代表某些人群或情景,因此天生容易出现偏见。例如,主要基于主导人口群体数据训练的模型可能在代表性不足的人群中表现不佳,IDC全球医疗保健提供商数字战略组的高级研究总监穆塔兹·谢格维说。“提示设计可能会进一步放大偏见,因为设计不当的提示可能会强化差异,”他说。“此外,genAI对常见模式的关注可能会忽视罕见但重要的案例。”
例如,被大型语言模型吸收的研究文献往往偏向白人男性,造成其他人群的关键数据缺口。穆塔兹说:“由于这一点,AI模型可能无法识别不同群体中的非典型疾病表现。某些疾病的症状在不同群体之间可能存在显著差异,未能承认这种差异可能导致延迟或错误的治疗。”
在当前的监管框架下,大型语言模型及其genAI接口无法像人类临床医生那样承担法律责任和责任。因此,出于“正式目的”,人类可能仍需参与其中,以承担法律责任、判断、细微差别以及患者所需的许多其他层面的评估和支持。
陈表示,医生可能已经在低风险用途中使用大型语言模型,如解释医疗图表或生成针对较轻症状的治疗选项。“无论好坏,无论准备与否,潘多拉的盒子已经打开,我们需要弄清楚如何有效地使用这些工具,并指导患者和临床医生以安全可靠的方式使用它们,”陈说。
(全文结束)

