语言模型的序贯诊断 - AI与医疗健康

语言模型的序贯诊断Sequential Diagnosis with Language Models

环球医讯 / AI与医疗健康来源：arxiv.org美国 - 英文2025-07-07 12:38:15 - 阅读时长2分钟 - 663字

微软AI团队推出序贯诊断基准(SDBench)和MAI诊断协调器(MAI-DxO)，通过模拟真实临床推理过程显著提升AI在复杂诊断任务中的表现，为AI辅助医疗提供了全新视角。

人工智能在扩展专家医学知识和推理的可及性方面具有巨大潜力。然而，大多数对语言模型的评估依赖于静态病例描述和多项选择题，这些无法反映现实世界中循证医学的复杂性和细微差别。在临床实践中，医生会逐步形成并修正诊断假设，根据刚刚学到的内容调整每个后续问题和测试，并在作出最终诊断前权衡不断演变的证据。为了模拟这种迭代诊断过程，我们推出了“序贯诊断基准”（Sequential Diagnosis Benchmark），将304个诊断难度较高的《新英格兰医学杂志》临床病理会议（NEJM-CPC）案例转化为分步诊断场景。医生或AI从一个简短的案例摘要开始，必须迭代地向一个守门员模型请求更多信息，该模型仅在明确询问时揭示发现结果。性能不仅通过诊断准确性进行评估，还包括就诊和测试的成本。作为对基准测试的补充，我们提出了“MAI诊断协调器（MAI-DxO）”，这是一个与模型无关的协调器，可以模拟一组医生，提出可能的鉴别诊断并战略性选择高价值且成本效益高的测试。当与OpenAI的o3模型配对时，MAI-DxO达到了80%的诊断准确率——是全科医生平均20%准确率的四倍。相比医生，MAI-DxO还减少了20%的诊断成本，相比现成的o3模型则减少了70%。当配置为最高准确率时，MAI-DxO达到85.5%的准确率。这些性能增益适用于来自OpenAI、Gemini、Claude、Grok、DeepSeek和Llama系列的模型。我们强调了当AI系统被引导以迭代思考和审慎行动时，如何在临床护理中提高诊断精确性和成本效益。

(全文结束)