语言模型的序贯诊断Sequential Diagnosis with Language Models

环球医讯 / AI与医疗健康来源:arxiv.org美国 - 英文2025-07-07 12:38:15 - 阅读时长2分钟 - 663字
微软AI团队推出序贯诊断基准(SDBench)和MAI诊断协调器(MAI-DxO),通过模拟真实临床推理过程显著提升AI在复杂诊断任务中的表现,为AI辅助医疗提供了全新视角。
语言模型连续诊断能力循证医学连续诊断基准MAI诊断协调器诊断准确性诊断成本临床护理健康诊断AI医疗应用
语言模型的序贯诊断

人工智能在扩展专家医学知识和推理的可及性方面具有巨大潜力。然而,大多数对语言模型的评估依赖于静态病例描述和多项选择题,这些无法反映现实世界中循证医学的复杂性和细微差别。在临床实践中,医生会逐步形成并修正诊断假设,根据刚刚学到的内容调整每个后续问题和测试,并在作出最终诊断前权衡不断演变的证据。为了模拟这种迭代诊断过程,我们推出了“序贯诊断基准”(Sequential Diagnosis Benchmark),将304个诊断难度较高的《新英格兰医学杂志》临床病理会议(NEJM-CPC)案例转化为分步诊断场景。医生或AI从一个简短的案例摘要开始,必须迭代地向一个守门员模型请求更多信息,该模型仅在明确询问时揭示发现结果。性能不仅通过诊断准确性进行评估,还包括就诊和测试的成本。作为对基准测试的补充,我们提出了“MAI诊断协调器(MAI-DxO)”,这是一个与模型无关的协调器,可以模拟一组医生,提出可能的鉴别诊断并战略性选择高价值且成本效益高的测试。当与OpenAI的o3模型配对时,MAI-DxO达到了80%的诊断准确率——是全科医生平均20%准确率的四倍。相比医生,MAI-DxO还减少了20%的诊断成本,相比现成的o3模型则减少了70%。当配置为最高准确率时,MAI-DxO达到85.5%的准确率。这些性能增益适用于来自OpenAI、Gemini、Claude、Grok、DeepSeek和Llama系列的模型。我们强调了当AI系统被引导以迭代思考和审慎行动时,如何在临床护理中提高诊断精确性和成本效益。


(全文结束)

猜你喜欢
  • 智晶智康推出AI医疗系统Agent Hospital 1智晶智康推出AI医疗系统Agent Hospital 1
  • 肠道病毒成分可能影响儿童IBD复发肠道病毒成分可能影响儿童IBD复发
  • RMIT大学的医疗科技发明进军市场RMIT大学的医疗科技发明进军市场
  • Portal Biotech筹集3500万美元A轮融资,利用人工智能推出全球首个全长单分子蛋白测序仪Portal Biotech筹集3500万美元A轮融资,利用人工智能推出全球首个全长单分子蛋白测序仪
  • 全球变暖可能使睡眠呼吸暂停症的负担翻倍,研究警告全球变暖可能使睡眠呼吸暂停症的负担翻倍,研究警告
  • 心率过缓解析:当心跳过慢时该如何应对心率过缓解析:当心跳过慢时该如何应对
  • 1200万澳元支持本土心脏疾病与糖尿病创新1200万澳元支持本土心脏疾病与糖尿病创新
  • CPAP治疗的科室选择与诊断流程全解析CPAP治疗的科室选择与诊断流程全解析
  • 解锁生物医学洞见:数据挖掘中生物医学信号处理综合指南解锁生物医学洞见:数据挖掘中生物医学信号处理综合指南
  • 冠状动脉疾病护理中的人工智能创新突破冠状动脉疾病护理中的人工智能创新突破
热点资讯
全站热点
全站热文