一项大型英国研究发现,作为AI医疗助手的大型语言模型(LLMs)未能可靠地帮助公众识别健康状况或决定何时寻求医疗帮助,突显了技术性能与现实安全之间的关键差距。
为何AI医疗助手备受关注
随着医疗系统面临劳动力短缺和对可及性建议需求的增加,人们对AI医疗助手的兴趣激增。大型语言模型如今在医学执照风格考试中取得近乎完美的分数,助长了它们可能在临床环境之外支持患者的预期。然而,将专家级知识转化为对非专业人士安全、易懂的指导仍存在不确定性。为解决此问题,研究人员调查了与使用常规信息源相比,作为医疗助手的LLMs是否真正改善了公众对症状的解读和适当行动的选择。
用真实用户测试作为医疗助手的LLMs
在一项随机预注册研究中,1298名英国成年人被要求回应由医生开发的十个医疗场景之一。参与者需识别可能的潜在疾病,并在五点量表上选择推荐的行动方案,范围从待在家中到呼叫救护车。他们被随机分配使用GPT-4o、Llama 3、Command R+,或使用其偏好的任何信息源。
当单独测试时,这些模型表现强劲,平均正确识别疾病的比例为94.9%,处置建议准确率为56.3%。然而,当参与者使用相同工具时,表现急剧下降:用户识别相关疾病的准确率不足34.5%,选择正确处置的比率低于44.2%,与对照组相比并无改善。尽管与模型自由互动,参与者经常提供不完整的信息或误解系统回复。研究发现决策制定没有实质性进步,即使底层模型具备生成正确答案的能力。
对临床实践和部署的影响
这些发现对直接向公众部署AI医疗助手提出了重要关切。高基准分数和模拟患者测试未能预测人类在与系统交互时的糟糕表现。对于临床实践,这表明无人监督的使用可能无法提高安全性,并可能产生虚假的安全感。作者强调,未来开发必须优先考虑以用户为中心的设计、更清晰的沟通机制以及针对多样化人群的严格用户测试。在大规模应用作为医疗助手的LLMs之前,医疗系统需获得证据证明它们能切实改善公众的理解和决策能力,而不仅仅是提升技术准确性。
参考文献
Bean A等. 大型语言模型作为公众医疗助手的可靠性:一项随机预注册研究. Nat Med. 2026;DOI:10.1038/s41591-025-04074-y.
【全文结束】

