美国人向AI寻求医疗帮助医院认为答案是更多的聊天机器人 - AI与医疗健康

美国人向AI寻求医疗帮助医院认为答案是更多的聊天机器人Americans ask AI for health care. Hospitals think the answer is more chatbots. - Ars Technica

环球医讯 / AI与医疗健康来源：arstechnica.com美国 - 英语2026-05-16 17:36:49 - 阅读时长7分钟 - 3404字

随着越来越多的美国人转向大型语言模型寻求健康建议，美国医疗系统开始推出自有品牌聊天机器人以引导患者使用其服务。尽管医院高管将这些工具定位为便利且安全的选择，专家们对聊天机器人的准备程度、监控机制和责任界定提出质疑。研究表明，在真实医疗场景中，AI的表现远不如基准测试所显示，存在传播错误信息的风险。目前，哈特福德医疗保健公司与K Health合作推出PatientGPT，Epic也在通过MyChart平台部署Emmie，这些工具旨在提高医疗可及性，但其长期影响和安全性仍需进一步观察评估，且尚无证据表明整合聊天机器人能真正改善患者健康结果。

随着越来越多的美国人转向大型语言模型寻求健康建议，全美各地的医疗系统正在关注甚至推出自己的品牌聊天机器人，试图利用这一已经流行的工具，引导更多人使用他们的服务。但这一迅速发展的趋势也引发了对美国复杂且通常表现不佳的医疗系统的立即问题和担忧。

高管们将这些新服务定位为对患者的便利，满足人们的需求并提供数字公平服务。他们还表示，他们的聊天机器人将比人们目前使用的商业版本更安全。

临床AI公司K Health的CEO阿隆·布洛克(Allon Bloch)在一份声明中表示："我们正处于医疗保健的转折点。需求正在加速，患者已经在使用AI来管理他们的生活。"

K Health正与康涅狄格州的哈特福德医疗保健公司(Hartford HealthCare)合作，向其数万名现有患者推出PatientGPT聊天机器人。

布洛克表示："问题不在于AI是否会塑造医疗保健，而在于我们如何在安全、透明的方式下实现这一点，这种方式要与您的医疗记录和护理团队连接。PatientGPT代表了这一转折点。"

但一些专家对这些推出持谨慎态度，提出了关于聊天机器人是否已准备好进行此类品牌发布、是否有足够的监控、责任将如何界定，以及这是否真正解决了患者提出的护理问题的担忧。

在这些风险和问题萦绕之际，对患者的好处仍然只是假设性的。"这是一个诱人的想法，"波士顿贝斯以色列女执事医疗中心(Beth Israel Deaconess Medical Center)的临床推理研究员兼内科医生亚当·罗德曼(Adam Rodman)最近对Stat News表示。但目前还没有证据表明将聊天机器人整合到医疗系统中能改善患者结果。"我们还没到那一步，"他说。

关键背景

要了解AI的潜在作用，有必要考虑美国医疗保健的更广泛背景。美国是世界上最富有的国家之一，但其医疗保健系统的表现与其他高收入国家相比持续且显著不佳。美国人的预期寿命较低，可避免的死亡更多，孕产妇和婴儿死亡率更高，肥胖和慢性病的比率也更高。美国人在获得医疗服务方面存在更多限制，健康结果更差。美国在不提供全民医疗方面是个例外。2023年的一项报告发现，近三分之一的美国人——超过1亿人——没有初级保健提供者。

现在，人工智能已进入这一混合体。任何有互联网连接的人都可以访问令人安心、听起来自信的基于LLM的聊天机器人，美国人正成群结队地使用这些新工具来询问健康和医疗问题。上个月KFF的一项民意调查显示，三分之一的成年人使用AI聊天机器人获取健康信息。

在使用AI的人中，41%报告称向该工具上传了个人医疗信息，如检测结果。当被问及转向AI的"主要"原因时，19%的人表示是因为他们负担不起医疗费用，18%的人提到没有常规的医疗服务提供者或无法预约。与此同时，65%的人表示他们只是想要快速答案。最终，许多人表示在AI咨询后没有跟进看医生，包括58%询问心理健康的人和42%询问身体健康的人。

明显担忧

随着越来越多的美国人使用AI填补医疗保健缺口，现在出现了越来越多的警示故事和恐怖故事。这些例子突显了LLM被问及的问题以及它们可能收集的信息中的陷阱。

今年2月，《自然医学》(Nature Medicine)发表了一项涉及近1,300名参与者的研究所，试图评估LLM（特别是GPT-4o、Llama 3和Command R+）在现实世界互动中的医学准确性。当研究人员向LLM提供特定医疗场景的文本时，LLM约95%的时间正确识别了医疗状况，约56%的时间正确识别了下一步措施——例如前往急诊室。但当参与者使用自己的提示来询问相同的医疗场景时，LLM只有约三分之一的时间能够正确识别医疗状况。LLM引导参与者采取适当下一步措施的比例仅为43%。

这项研究基本上表明"人们不知道他们应该告诉模型什么"，牛津大学的AI研究员、主要作者安德鲁·比恩(Andrew Bean)上个月对NPR表示。

资深作者亚当·马迪(Adam Mahdi)补充道："基准测试分数与现实世界表现之间的脱节应该对AI开发者和监管机构敲响警钟。"

然后是关于LLM可能获取的医疗信息质量的担忧。就在上周，《自然》新闻报道称，LLM正在与用户讨论"bixonimania"——一种完全由瑞典研究人员编造的皮肤病。该团队在网上发布了两篇关于该病症的虚假研究，想看看医疗错误信息会如何容易被AI工具采纳。结果是太容易了。他们随后撤下了这些研究。

推出正在进行中

尽管如此，几家医疗系统仍在推进自己的聊天机器人。据Stat报道，哈特福德医疗保健公司和K Health的PatientGPT上个月作为测试版向部分患者推出，公司计划本周将推广范围扩大到数万名患者。

哈特福德发布了一项涉及75名参与者的预印本研究（未经同行评审），该研究表明其迭代压力测试（即红队测试方法）随着时间的推移改善了其失败率，特别是在"高风险"场景中。测试将高风险场景中的失败率从30%降至8.5%。但对于现实环境意味着什么仍不清楚——8.5%的失败可能有多严重也不明确。

据Stat报道，PatientGPT有两种工作模式：一种是可能包含患者信息的通用医疗问答模式，另一种是"医疗接诊"模式，在这种模式下，患者开始提供症状信息，聊天机器人变得不那么健谈，开始进行临床流程图。在AI代理在接诊模式下收集了足够的信息后，它将提供下一步措施，包括安排与初级保健的后续预约或寻求紧急或急诊护理。如果建议后者，聊天机器人将停止回应进一步的问题。

哈特福德表示，随着更大范围的推广，他们将继续监控聊天机器人的表现。在试点阶段，哈特福德监控了每次互动。但现在系统将降至每天仅人工审查20次互动，而另一个AI代理则监控其余部分。他们还将每1,000次对话进行批量研究。

哈特福德医疗保健公司的总裁兼CEO杰夫·弗拉克斯(Jeff Flaks)上个月表示："我们的使命是成为全国最具消费者导向的医疗系统。医疗保健传统上很大程度上围绕提供者组织，但很明显我们必须满足人们的需求，满足他们希望被满足的地方。通过PatientGPT，我们正在引入一种支持您健康的工具，提供24/7护理团队的访问，同时保护护理核心的人际关系。"

更谨慎的工具

除了PatientGPT，还有Epic（MyChart背后的电子健康记录巨头）发布的AI聊天助手Emmie。包括加州的萨特健康(Sutter Health)和印第安纳州的雷德健康(Reid Health)在内的几家医疗系统正通过在线门户慢慢向用户推出Emmie。

据《贝克尔医院评论》(Becker's Hospital Review)报道，Epic的创始人兼CEO朱迪·福克纳(Judy Faulkner)在去年的一次高管讲话中描述Emmie为一种助手，可以帮助患者通过起草就诊议程来准备就诊，之后帮助患者理解检测结果并回答后续问题。

萨特健康的Emmie常见问题解答指出，该聊天机器人可以"回答一般健康问题，并查找或总结您图表中已可见的信息——如笔记、结果、过去就诊或消息。"但它强调，它"不提供个性化医疗建议或做出护理决策。Emmie不用于诊断疾病或其他状况，也不用于治疗、缓解、治疗或预防疾病。Emmie也不打算取代、修改或替代医生的专业临床判断。"

目前，Emmie仅提供给萨特患者的一小部分。这些患者可以通过简单的点赞或踩来对Emmie的回应提供反馈。

雷德健康正追随萨特的脚步，成为第二个采用Emmie的机构。在上周与贝克尔的采访中，雷德健康的技术官穆罕默德·西迪基(Muhammad Siddiqui)指出，该系统主要服务于农村社区，公司认为Emmie是一种扩大访问范围并帮助患者导航护理的方式。

西迪基表示："患者希望获得更清晰的答案、更便捷的访问和就诊之间的更多指导。如果我们能在医疗系统体验中提供这一点，以一种与可信的临床工作流程相连的方式，那将比让人们独自使用可能准确也可能不准确的公共工具要好得多。"

【全文结束】