AI模型在真实世界医疗对话中表现不佳AI models struggle in real-world medical conversations

环球医讯 / AI与医疗健康来源:www.news-medical.net美国 - 英语2025-01-03 00:00:00 - 阅读时长4分钟 - 1764字
哈佛医学院和斯坦福大学的研究揭示,尽管AI工具如ChatGPT在标准化医学测试中表现出色,但在模拟真实世界的医患互动中却存在明显不足,这突显了创建更现实评估框架和改进AI工具的需求。
AI模型医疗对话真实世界ChatGPT大型语言模型CRAFT-MD医学测试诊断准确性医患互动症状收集非结构化对话开放式问题信息整合监管建议临床表现伦理增强评估工具医生工作负担患者理解标准化测试自然对话动态性质多项选择题现实复杂性病史记录分散信息双向交流非语言线索文本数据图像数据心电图AI代理人类专家对话笔记面部表情语调肢体语言患者模拟时间成本未经验证工具医疗保健领域性能发展
AI模型在真实世界医疗对话中表现不佳

人工智能工具(如ChatGPT)因其有望通过分流患者、记录病史甚至提供初步诊断来减轻医生的工作负担而备受关注。这些被称为大型语言模型的工具已被患者用于理解症状和医学检查结果。然而,这些AI模型在标准化医学测试中的表现虽然令人印象深刻,但在更接近真实世界的场景中表现如何呢?

根据哈佛医学院和斯坦福大学研究人员的一项新研究,这些AI模型的表现并不理想。该研究于1月2日发表在《自然医学》上,研究人员设计了一种名为CRAFT-MD(医学对话推理评估框架)的评价工具,用于测试四个大型语言模型在模拟实际医患互动中的表现。所有四个大型语言模型在医学考试风格的问题上表现出色,但在更接近真实世界对话的情境中,其表现有所下降。

这一差距凸显了两个需求:首先,创建更现实的评估工具,以更好地衡量临床AI模型在真实世界中的适用性;其次,在部署到诊所之前,提高这些工具在基于更现实互动进行诊断的能力。CRAFT-MD等评估工具不仅可以更准确地评估AI模型的真实世界适应性,还可以优化其在诊所中的表现。

“我们的研究表明了一个显著的悖论——尽管这些AI模型在医学考试中表现出色,但在医生就诊的基本对话中却显得力不从心。医疗对话的动态性质——需要在合适的时间提出合适的问题,拼凑分散的信息,并通过症状进行推理——提出了远远超出选择题的独特挑战。当我们从标准化测试转向自然对话时,即使是最先进的AI模型也显示出显著的诊断准确性下降。”哈佛医学院生物医学信息学助理教授Pranav Rajpurkar表示。

目前,开发人员通过让AI模型回答多项选择题来测试其性能,这些题目通常来自即将毕业的医学生全国考试或住院医师认证考试。然而,这种方法假设所有相关信息都以清晰简洁的方式呈现,通常带有简化诊断过程的医学术语或关键词。而在现实世界中,这一过程要复杂得多。因此,我们需要一个更能反映现实的测试框架,以更好地预测模型的表现。

为了模拟真实世界的互动,CRAFT-MD评估了大型语言模型收集症状、药物和家族病史信息并作出诊断的能力。一个AI代理扮演患者,以自然对话的方式回答问题,另一个AI代理评估最终诊断的准确性。人类专家随后评估每次互动的结果,包括收集相关患者信息的能力、面对分散信息时的诊断准确性以及对提示的遵循情况。

研究人员使用CRAFT-MD测试了四个AI模型(包括专有或商业模型和开源模型),在2,000个涉及常见初级保健条件和12个医学专科的临床案例中评估其表现。所有AI模型都表现出局限性,特别是在进行临床对话和基于患者提供的信息进行推理方面。这反过来又影响了它们记录病史和做出适当诊断的能力。例如,这些模型经常难以提出正确的问题来收集相关病史,错过关键信息,并难以整合分散的信息。当面对开放式信息而不是多项选择题时,这些模型的准确性下降。此外,这些模型在来回交流中表现更差,而大多数现实世界的对话都是这样的,而不是总结性的对话。

基于这些发现,研究团队为设计AI模型的开发者和负责评估和批准这些工具的监管机构提供了改进建议。这些建议包括:

  • 使用更贴近非结构化医患互动的对话式、开放性问题设计、训练和测试AI工具;
  • 评估模型提出正确问题和提取最重要信息的能力;
  • 设计能够跟踪多个对话并整合信息的模型;
  • 设计能够整合文本(对话笔记)和非文本数据(图像、心电图)的AI模型;
  • 设计更复杂的AI代理,能够解释非语言线索,如面部表情、语调和肢体语言。

此外,研究人员建议评估应包括AI代理和人类专家,因为仅依赖人类专家既费时又昂贵。例如,CRAFT-MD处理了10,000次对话,耗时48至72小时,加上15-16小时的人类专家评估。相比之下,基于人类的方法需要大量招募人员,并估计需要500小时进行患者模拟(每段对话近3分钟)和约650小时进行专家评估(每段对话近4分钟)。使用AI代理作为第一线评估员还有一个额外的好处,即避免让真实患者接触到未经验证的AI工具。

“作为一名医师科学家,我对能够有效且合乎伦理地增强临床实践的AI模型感兴趣。CRAFT-MD创建了一个更接近现实世界互动的框架,从而有助于推动在医疗保健领域测试AI模型性能的发展。”斯坦福大学生物医学数据科学和皮肤科助理教授Roxana Daneshjou表示。


(全文结束)

大健康

猜你喜欢

  • Qure.ai:联合创始人兼首席执行官Prashant Warier访谈Qure.ai:联合创始人兼首席执行官Prashant Warier访谈
  • 微软宣布AI工具以减轻医生和护士的工作负担微软宣布AI工具以减轻医生和护士的工作负担
  • AI在诊室的应用:了解芝加哥大学医学中心新的笔记记录工具的五件事AI在诊室的应用:了解芝加哥大学医学中心新的笔记记录工具的五件事
  • 生成式AI如何帮助解决收入周期的主要痛点生成式AI如何帮助解决收入周期的主要痛点
  • 人工智能“医生”在医疗对话中的表现如何?人工智能“医生”在医疗对话中的表现如何?
  • 利用现有临床实验室网络监管医疗AI利用现有临床实验室网络监管医疗AI
  • AI在医疗对话中的现实挑战:哈佛和斯坦福大学的研究AI在医疗对话中的现实挑战:哈佛和斯坦福大学的研究
  • EXL 与 NVIDIA 合作开发保险专用语言模型EXL 与 NVIDIA 合作开发保险专用语言模型
  • 利用大型语言模型增强临床诊断:挑战、框架和实际应用建议利用大型语言模型增强临床诊断:挑战、框架和实际应用建议
  • 评估框架测试AI医生的沟通能力评估框架测试AI医生的沟通能力
大健康
大健康

热点资讯

大健康

全站热点

大健康

全站热文

大健康