真实医疗问题难倒人工智能聊天机器人Real-world medical questions stump AI chatbots

环球医讯 / AI与医疗健康来源:www.sciencenews.org美国 - 英语2026-03-02 22:02:47 - 阅读时长4分钟 - 1553字
牛津大学Reasoning with Machines实验室主导的研究表明,当前最先进的AI聊天机器人在实验室环境中诊断准确率达95%,但在真实用户交互场景中准确率骤降至35%以下,主要因人类提问方式零散且易受干扰,导致推荐正确医疗措施的比例从56%以上跌至44%左右,该研究2月9日发表于《自然·医学》,警示商业大语言模型尚未达到临床应用安全标准,全球患者安全组织ECRI已将其列为2026年重大健康技术隐患。
人工智能聊天机器人真实医疗问题诊断准确率真实场景人机交互健康技术隐患临床安全大语言模型医疗建议患者护理
真实医疗问题难倒人工智能聊天机器人

人工智能聊天机器人看似医学知识渊博,但在与真实人类互动时表现大打折扣。

实验室测试显示,AI聊天机器人能以95%的准确率识别医疗问题,并在56%以上的情况下正确建议就医或急诊等措施。然而当真实人类以对话形式向AI描述医疗场景时,情况变得复杂:诊断病症的准确率降至35%以下,识别正确措施的比例约为44%。研究人员于2月9日在《自然·医学》期刊报告了这一发现。

这种从实验室到现实场景的性能断崖表明,“AI具备医学知识储备,但人们难以从中获取有效建议。”牛津大学Reasoning with Machines实验室负责人、数学家亚当·马迪(Adam Mahdi)指出。

为测试实验室环境下的诊断准确率,马迪团队将10种疾病的模拟场景输入GPT-4o、Command R+和Llama 3等大语言模型(LLMs),追踪其诊断问题及建议措施的能力。随后,研究团队随机指派近1300名志愿者将相同场景提交给上述任一LLM,或采用其他方式判断应对方案。志愿者还需说明结论依据及对医疗问题的认知。大多数未使用聊天机器人的参与者通过谷歌等搜索引擎输入症状,而使用聊天机器人的参与者不仅表现逊于实验室环境下的AI,甚至不如使用搜索引擎者——前者诊断准确率平均35%,后者则超过40%,马迪强调这是具有统计学意义的差异。

研究开展的2024年末,这些AI聊天机器人代表行业顶尖水平,医学知识优化空间极小。“问题出在人机交互环节,”马迪表示。部分案例中聊天机器人提供错误或误导性信息,但主要症结在于人类与LLMs的互动方式:人们习惯逐步提供信息而非一次性陈述完整病史,而聊天机器人易受无关或片段信息干扰。参与者有时甚至会忽视正确的AI诊断结论。

提问措辞的细微变化会显著改变聊天机器人响应。例如两人描述蛛网膜下腔出血(一种脑组织与覆盖膜之间出血的中风类型)时,均向GPT-4o提及头痛、畏光和颈项强直。一名志愿者表示“突然出现史上最剧烈头痛”,促使GPT-4o正确建议立即就医;另一人仅称“严重头痛”,GPT-4o却推断为偏头痛并建议静卧暗室休息——这种推荐可能危及患者生命。

马迪坦言,目前尚不清楚描述方式的细微变化为何导致响应差异如此巨大,这属于AI“黑箱问题”,连开发者也难以追溯模型推理路径。研究团队强调,“测试的所有语言模型均未达到直接用于患者护理的成熟度。”

其他机构也得出相同结论。全球患者安全组织ECRI在1月21日报告中,将医患两端使用的AI聊天机器人列为2026年最重大健康技术隐患,指出其存在自信提出错误诊断、虚构人体器官、推荐危险医疗产品或程序、建议不必要检查治疗,以及强化加剧健康差异的偏见等风险。多项研究还证实聊天机器人作为心理治疗师时会犯伦理错误。

ECRI设备安全副总裁斯科特·卢卡斯(Scott Lucas)表示,尽管多数医生已在病历转录或检验结果复核等场景使用聊天机器人,且OpenAI和Anthropic分别于1月推出医疗专用版ChatGPT与Claude(后者日均处理超4000万医疗咨询),但“商业大语言模型尚未准备好投入临床实战。完全依赖其输出结果并不安全。”他坦言人们转向聊天机器人寻求医疗帮助不难理解:“它们能调用海量数据点,以简明可信的方式提供精准建议,且表达极具说服力。”

马迪计划开展多语言及长期追踪的AI交互研究,以助开发者设计更可靠的模型。他强调:“首要任务是修正评估标准——我们此前测量的并非关键指标,真正重要的是AI对真实人类的表现。”哈佛医学院医疗AI研究员米歇尔·李(Michelle Li)指出,该研究印证了机器学习领域长期担忧的患者护理安全性问题,她团队2月3日在《自然·医学》发表的论文提出了提升AI模型训练、测试及实施可靠性的改进方案。

【全文结束】

猜你喜欢
  • 里程碑式研究揭示人工智能医疗建议中的危险缺陷里程碑式研究揭示人工智能医疗建议中的危险缺陷
  • FDA将默认仅需一项临床试验作为药物审批基础FDA将默认仅需一项临床试验作为药物审批基础
  • 第20届圣心大学医院中心冬季三项赛2026年筹集创纪录的1,015,026美元第20届圣心大学医院中心冬季三项赛2026年筹集创纪录的1,015,026美元
  • 阿联酋首家全面心力衰竭中心获认证阿联酋首家全面心力衰竭中心获认证
  • 心血管护理安全使用远程医疗指南发布心血管护理安全使用远程医疗指南发布
  • 微软健康高管在纽约简报会上谈人工智能开发与研究微软健康高管在纽约简报会上谈人工智能开发与研究
  • 1600万美元研究探讨人工智能在解读乳腺X光检查中的作用1600万美元研究探讨人工智能在解读乳腺X光检查中的作用
  • 新型导航器模型旨在加速细胞和基因疗法惠及患者新型导航器模型旨在加速细胞和基因疗法惠及患者
  • 构建全球研究联系构建全球研究联系
  • 赛赫博士在2026年人工智能影响力峰会强调医疗健康领域负责任的人工智能、伦理与包容性赛赫博士在2026年人工智能影响力峰会强调医疗健康领域负责任的人工智能、伦理与包容性
热点资讯
全站热点
全站热文