用户误读导致AI医疗助手在现实世界中失败 - AI与医疗健康

用户误读导致AI医疗助手在现实世界中失败Why do AI Medical Assistants Fail in the Real World? - EMJ

环球医讯 / AI与医疗健康来源：www.emjreviews.com英国 - 英语2026-02-28 10:10:55 - 阅读时长2分钟 - 936字

英国一项针对1298名成年人的随机预注册研究揭示，尽管大型语言模型在医学模拟考试中取得近100%的疾病识别准确率，但当公众实际使用GPT-4o等AI医疗助手时，由于用户对信息的误读、不完整输入及误解系统回复，症状识别准确率骤降至34.5%以下，处置决策正确率不足44.2%，与对照组无异，这突显了技术性能与现实安全间的致命差距，表明高基准测试分数无法预测真实场景表现，无人监督的AI医疗助手可能产生虚假安全感，未来开发必须转向以用户为中心的设计、清晰沟通机制及多样化人群的严格测试，以确保真正提升患者决策质量而非仅追求技术指标。

一项大型英国研究发现，作为AI医疗助手的大型语言模型（LLMs）未能可靠地帮助公众识别健康状况或决定何时寻求医疗帮助，突显了技术性能与现实安全之间的关键差距。

为何AI医疗助手备受关注

随着医疗系统面临劳动力短缺和对可及性建议需求的增加，人们对AI医疗助手的兴趣激增。大型语言模型如今在医学执照风格考试中取得近乎完美的分数，助长了它们可能在临床环境之外支持患者的预期。然而，将专家级知识转化为对非专业人士安全、易懂的指导仍存在不确定性。为解决此问题，研究人员调查了与使用常规信息源相比，作为医疗助手的LLMs是否真正改善了公众对症状的解读和适当行动的选择。

用真实用户测试作为医疗助手的LLMs

在一项随机预注册研究中，1298名英国成年人被要求回应由医生开发的十个医疗场景之一。参与者需识别可能的潜在疾病，并在五点量表上选择推荐的行动方案，范围从待在家中到呼叫救护车。他们被随机分配使用GPT-4o、Llama 3、Command R+，或使用其偏好的任何信息源。

当单独测试时，这些模型表现强劲，平均正确识别疾病的比例为94.9%，处置建议准确率为56.3%。然而，当参与者使用相同工具时，表现急剧下降：用户识别相关疾病的准确率不足34.5%，选择正确处置的比率低于44.2%，与对照组相比并无改善。尽管与模型自由互动，参与者经常提供不完整的信息或误解系统回复。研究发现决策制定没有实质性进步，即使底层模型具备生成正确答案的能力。

对临床实践和部署的影响

这些发现对直接向公众部署AI医疗助手提出了重要关切。高基准分数和模拟患者测试未能预测人类在与系统交互时的糟糕表现。对于临床实践，这表明无人监督的使用可能无法提高安全性，并可能产生虚假的安全感。作者强调，未来开发必须优先考虑以用户为中心的设计、更清晰的沟通机制以及针对多样化人群的严格用户测试。在大规模应用作为医疗助手的LLMs之前，医疗系统需获得证据证明它们能切实改善公众的理解和决策能力，而不仅仅是提升技术准确性。

参考文献

Bean A等. 大型语言模型作为公众医疗助手的可靠性：一项随机预注册研究. Nat Med. 2026;DOI:10.1038/s41591-025-04074-y.

【全文结束】