语言模型的序贯诊断Sequential Diagnosis with Language Models

环球医讯 / AI与医疗健康来源:arxiv.org美国 - 英文2025-07-07 12:38:15 - 阅读时长2分钟 - 663字
微软AI团队推出序贯诊断基准(SDBench)和MAI诊断协调器(MAI-DxO),通过模拟真实临床推理过程显著提升AI在复杂诊断任务中的表现,为AI辅助医疗提供了全新视角。
语言模型连续诊断能力循证医学连续诊断基准MAI诊断协调器诊断准确性诊断成本临床护理健康诊断AI医疗应用
语言模型的序贯诊断

人工智能在扩展专家医学知识和推理的可及性方面具有巨大潜力。然而,大多数对语言模型的评估依赖于静态病例描述和多项选择题,这些无法反映现实世界中循证医学的复杂性和细微差别。在临床实践中,医生会逐步形成并修正诊断假设,根据刚刚学到的内容调整每个后续问题和测试,并在作出最终诊断前权衡不断演变的证据。为了模拟这种迭代诊断过程,我们推出了“序贯诊断基准”(Sequential Diagnosis Benchmark),将304个诊断难度较高的《新英格兰医学杂志》临床病理会议(NEJM-CPC)案例转化为分步诊断场景。医生或AI从一个简短的案例摘要开始,必须迭代地向一个守门员模型请求更多信息,该模型仅在明确询问时揭示发现结果。性能不仅通过诊断准确性进行评估,还包括就诊和测试的成本。作为对基准测试的补充,我们提出了“MAI诊断协调器(MAI-DxO)”,这是一个与模型无关的协调器,可以模拟一组医生,提出可能的鉴别诊断并战略性选择高价值且成本效益高的测试。当与OpenAI的o3模型配对时,MAI-DxO达到了80%的诊断准确率——是全科医生平均20%准确率的四倍。相比医生,MAI-DxO还减少了20%的诊断成本,相比现成的o3模型则减少了70%。当配置为最高准确率时,MAI-DxO达到85.5%的准确率。这些性能增益适用于来自OpenAI、Gemini、Claude、Grok、DeepSeek和Llama系列的模型。我们强调了当AI系统被引导以迭代思考和审慎行动时,如何在临床护理中提高诊断精确性和成本效益。


(全文结束)

大健康

猜你喜欢

  • 全球变暖可能使睡眠呼吸暂停症的负担翻倍,研究警告全球变暖可能使睡眠呼吸暂停症的负担翻倍,研究警告
  • 2025年急性冠脉综合征管理指南的最新要点2025年急性冠脉综合征管理指南的最新要点
  • 医疗数据智能初创公司Certify获4000万美元融资,由Transformation Capital和General Catalyst领投医疗数据智能初创公司Certify获4000万美元融资,由Transformation Capital和General Catalyst领投
  • 冠状动脉疾病护理中的人工智能创新突破冠状动脉疾病护理中的人工智能创新突破
  • 心率过缓解析:当心跳过慢时该如何应对心率过缓解析:当心跳过慢时该如何应对
  • 智晶智康推出AI医疗系统Agent Hospital 1智晶智康推出AI医疗系统Agent Hospital 1
  • 研究人员发现成人ADHD临床试验存在严重缺陷研究人员发现成人ADHD临床试验存在严重缺陷
  • Portal Biotech筹集3500万美元A轮融资,利用人工智能推出全球首个全长单分子蛋白测序仪Portal Biotech筹集3500万美元A轮融资,利用人工智能推出全球首个全长单分子蛋白测序仪
  • ITV新闻传奇人物阿拉斯泰尔·斯图尔特发布令人心碎的痴呆症更新ITV新闻传奇人物阿拉斯泰尔·斯图尔特发布令人心碎的痴呆症更新
  • 理解AI语言:医生高效提示指南理解AI语言:医生高效提示指南
大健康
大健康

热点资讯

大健康

全站热点

大健康

全站热文

大健康