技术公司微软推出了微软AI诊断协调器(Microsoft AI Diagnostic Orchestrator,简称MAI-DxO),这是一个旨在模拟虚拟医疗专家团队协作处理临床病例的系统。在生成式AI应用中,协调器作为协调层管理执行复杂任务的多个组件。在医疗领域,这种协调机制因其对医疗决策的重要性而备受关注。协调器位于大型语言模型之上,逐步结构化诊断过程,以帮助减少潜在错误并提高一致性、透明度和操作可靠性。
微软研究人员表示,协调多个语言模型可能是处理复杂临床工作流程的必要策略。这种方法可以更好地整合各种数据源,并在动态医疗环境中提供更高的安全性和适应性。系统无关的设计还支持可审计性和稳健性。
微软提供的评估结果显示,MAI-DxO在所有测试模型中均提高了诊断性能,其最高准确率——85.5%——是在结合OpenAI的o3模型进行《新英格兰医学杂志》(NEJM)基准测试时实现的。相比之下,来自美国和英国的21名拥有5至20年经验的医生在同一任务上的平均准确率为20%。
MAI-DxO系统可配置为在预定义的成本参数内运行,从而能够分析诊断准确性与测试费用之间的权衡。此功能旨在防止低效的过度测试,同时优化结果。微软的研究结果表明,与临床医生或单一AI模型相比,MAI-DxO不仅提高了诊断准确性,还降低了测试成本。
“我们正在向医疗超级智能迈出一大步。AI模型已经通过了多项选择医疗考试——但现实中的患者不会附带ABC选项。现在,MAI-DxO可以以更高的准确性和更低的成本解决一些世界上最难的开放式病例。”——穆斯塔法·苏莱曼(Mustafa Suleyman),2025年6月30日
AI通过结合广泛与专业知识超越传统医生限制,提供高效诊断支持
医务人员通常根据其专业知识的范围或重点进行分类。全科医生(如家庭医生)通常处理不同年龄组和器官系统的广泛健康问题。相比之下,专科医生专注于特定领域,例如风湿病学,通常将其实践集中于单一病症或系统。
然而,没有一位医生能够全面应对复杂数据集(如NEJM病例系列)中呈现的所有临床案例。相比之下,AI不受这些限制的约束。它可以结合广泛和专业的知识,在多个领域以超越单个人类专家的方式应用临床推理。这种推理水平对未来医疗服务的结构具有重要意义。AI系统可能促进患者主导的常规护理管理,并为临床医生提供更强大的决策工具来处理更复杂的病例。数据还表明,此类系统有潜力降低医疗支出。在美国,医疗成本已接近国民生产总值的五分之一,其中约25%被归因于效率低下或临床效益有限的干预措施。
本研究的一个显著特点在于其包含了经济考量。尽管实际成本因地区和医疗模式而异,并且通常包括此处未测量的下游变量,但统一的方法被应用于所有代理和临床医生,以评估诊断效果与资源消耗之间的权衡。这项调查代表了对这些动态的初步探索。在生成式AI系统完全融入临床实践之前,还需要进一步研究。真实世界测试、监管监督和基于证据的评估对于确保这些工具符合安全性和有效性标准至关重要。与医疗机构的合作正在进行中,以支持在任何大规模部署前进行全面评估。
(全文结束)

