人工智能聊天机器人在基于患者初始症状准确生成可能诊断列表方面失败率超过80%,但当提供更多临床信息时表现显著提升,这是马萨诸塞州萨默维尔市马萨诸塞总医院布里格姆研究中心(Mass General Brigham)最新研究的发现。
研究论文《大型语言模型在临床推理任务中的表现》于4月13日发表在《JAMA网络开放》期刊上。
以下是关键发现:
- 研究人员旨在确定大型语言模型能否在临床工作流程中展现可靠性能。研究团队使用29个标准化医疗案例(源自用于培训医疗专业人员的同行评议临床参考书MSD诊疗手册),测试了21种人工智能模型,总计分析16,254条回复。医学院学生根据既定答案标准对各模型回复进行评分,相关分析在2025年1月至12月间进行。研究过程中禁用了实时网络搜索及其他附加功能。
- 研究人员模拟真实患者诊疗过程,引导AI模型逐步完成包括鉴别诊断——即根据症状生成可能诊断列表——在内的临床步骤,随后进行诊断测试安排、最终诊断确定及治疗方案规划。
- 在测试的21种模型中,鉴别诊断环节表现最为薄弱,失败率普遍超过80%,部分模型在特定场景下甚至达到100%。研究者指出,该缺陷与同一研究团队早前研究结论一致,表明新型AI版本尚未解决这一问题。
- 所有模型在最终诊断环节的失败率均低于40%。当提供更多临床信息并要求给出最终诊断时,表现最佳模型的失败率可降至9%。
- 研究作者表示,当前模型缺乏安全临床应用所需的推理能力,建议现阶段最负责任的应用方式是在低不确定性任务中采用医生监督下的定向使用。
【全文结束】

