大型语言模型作为公众医疗助手的可靠性:一项随机预先注册研究
该研究对1298名英国参与者进行随机对照试验,评估大型语言模型作为公众医疗助手的可靠性。研究发现,尽管LLMs在医疗知识测试中表现优异(单独测试时疾病识别率达94.9%),但公众使用这些模型进行医疗决策时,疾病识别率降至34.5%以下,处置方案选择正确率低于44.2%,均不优于使用传统方法的对照组。研究表明用户与LLM的交互是主要挑战,标准医疗知识测试和模拟患者交互无法预测真实用户交互中的失败,强调在医疗领域部署前需进行系统的人类用户测试以确保安全性和可靠性,这对AI在医疗保健中的应用具有重要指导意义。

