微软今日宣布推出一款人工智能工具,在诊断复杂医疗病例方面表现优于一组医学专家。
这款名为“微软AI诊断协调器”(Microsoft AI Diagnostic Orchestrator,简称MAI-DxO)的工具与来自美国和英国的21位资深医生展开了一场较量。这些医生面对的是记录在《新英格兰医学杂志》中的复杂病例。结果显示,MAI-DxO在85.5%的测试病例中给出了正确诊断,而医生们的准确率仅为20%。
该工具目前尚未投入临床使用。
“我们正朝着实现医疗超级智能迈出一大步,”微软AI首席执行官穆斯塔法·苏莱曼(Mustafa Suleyman)在LinkedIn上发帖表示。
微软将此工具与多个知名AI模型结合使用,包括GPT、Llama、Claude、Gemini、Grok和DeepSeek。其中最佳配置是MAI-DxO与OpenAI的o3版本相结合。
与人类医生类似,MAI-DxO通过分析症状、提出问题并推荐医学检测来进行诊断。其关键特性之一是能够优化成本,避免开具不必要的诊断测试,从而减少医疗开支。
尽管MAI-DxO的表现优于参与测试的医生,但微软也承认,在正常情况下,医生们通常不会孤立工作,而是会咨询同事或参考在线及印刷资源。
这一新的诊断性能基准来源于《新英格兰医学杂志》记录的304个近期病例。
该工具基于此前对AI在医学领域表现的测试开发而成,那些测试要求AI完成美国医师执照考试(USMLE)。微软表示,AI工具已经进化到几乎能在该考试中取得完美分数,但由于考试采用的是多项选择题形式,这种结构更偏向“记忆而非深度理解”。
根据微软博客文章,新的基准测试使用了复杂病例,要求具备更高阶的技能来执行“序列诊断”,这是现实世界医疗决策的核心环节。
下一步,微软计划进一步测试该工具处理更常见疾病的能力。在将其应用于医疗实践之前,它还需要经过临床环境中的安全性和性能测试,并获得监管机构的批准。
微软AI副总裁贝·格罗斯(Bay Gross)在LinkedIn的一篇帖子中将这项努力描述为“概念验证,表明大型语言模型系统可以通过遵循专家医生每天使用的逐步推理和辩论过程,掌握医学中最复杂的诊断挑战。”
与其他AI应用一样,微软高管强调,这些AI工具并非旨在取代人类,而是为了优化他们的工作效率。在医疗领域,这意味着自动化日常任务、协助诊断以及制定个性化护理策略。
更多关于这项研究的细节可以在一篇尚未被科学期刊接受的论文中找到。
(全文结束)

