微软推出了一款新的人工智能(AI)系统,据称该系统能够比人类医生更准确且以更低的成本诊断一些最棘手的医疗病例。这款系统被称为微软AI诊断协调器(Microsoft AI Diagnostic Orchestrator, MAI-DxO),使用《新英格兰医学杂志》(New England Journal of Medicine, NEJM)发布的案例研究进行测试。这些案例以其特别复杂的性质而闻名,通常需要一组专家共同参与。根据微软的说法,该AI系统的诊断准确率为85.5%,而来自美国和英国的一组经验丰富的医生的准确率仅为20%。
技术工作原理
随着越来越多的人转向数字工具获取医疗建议,微软表示每天在其Bing和Copilot等服务上看到超过5000万次与健康相关的搜索。
为了测试该系统,微软创建了一个新的挑战,称为顺序诊断基准(Sequential Diagnosis Benchmark, SD Bench),基于304个真实的NEJM案例。这些案例被转化为逐步场景,AI或人类医生可以在做出诊断之前提问或要求进行检测。每个测试都有虚拟成本,有助于衡量准确性和资源使用的合理性。
微软测试了多个顶级AI模型,包括OpenAI的o3、Claude、Gemini、Llama和DeepSeek,无论是单独还是作为MAI-DxO的一部分。协调器系统通过结合不同的模型来像一组医生一样工作,分享想法并缩小可能的诊断范围。微软表示,最佳结果来自于使用MAI-DxO与OpenAI的o3模型的组合。
结果显示,AI不仅比参与研究的医生正确诊断出更多的病例,而且使用的测试更少且更具成本效益。
另请阅读 | DxGPT上线:萨提亚·纳德拉强调用于诊断罕见疾病的AI工具
微软医疗AI的局限性
然而,微软承认这项研究有其局限性。测试集中在罕见和复杂的病例上,而不是日常健康问题。此外,在测试中,医生不允许使用任何支持工具如书籍或互联网,而在现实世界中这些资源经常被使用。
公司开发的其他工具包括RAD-DINO,它有助于改进放射学流程,以及Dragon Copilot,一个面向医生的语音助手。
微软表示,现在正与卫生组织合作,在实际诊所和医院中测试其AI。在更广泛的应用之前,该技术需要满足安全标准并获得监管机构的批准。
(全文结束)

