用户误读导致AI医疗助手在现实世界中失败
英国一项针对1298名成年人的随机预注册研究揭示,尽管大型语言模型在医学模拟考试中取得近100%的疾病识别准确率,但当公众实际使用GPT-4o等AI医疗助手时,由于用户对信息的误读、不完整输入及误解系统回复,症状识别准确率骤降至34.5%以下,处置决策正确率不足44.2%,与对照组无异,这突显了技术性能与现实安全间的致命差距,表明高基准测试分数无法预测真实场景表现,无人监督的AI医疗助手可能产生虚假安全感,未来开发必须转向以用户为中心的设计、清晰沟通机制及多样化人群的严格测试,以确保真正提升患者决策质量而非仅追求技术指标。

