微软推出了一款功能强大的新型人工智能系统,据称其诊断复杂医疗状况的准确率比经验丰富的医生高出四倍以上。这一发展被微软人工智能部门首席执行官Mustafa Suleyman誉为“迈向医学超级智能的真正一步”。该系统名为Microsoft AI Diagnostic Orchestrator(MAI-DxO),通过超越简单的测试答题,转向解决定义现实世界医学的细致、逐步推理过程,代表了临床人工智能的重大进步。
在公司博客的详细公告中,微软解释说,该系统是根据一种新的、更严格的标准进行评估的。与依赖于医学执照考试中的多项选择题不同——这些题目对现代人工智能而言已变得微不足道——微软创建了Sequential Diagnosis Benchmark(SD Bench)。这一基准使用了《新英格兰医学杂志》发布的304个最复杂的案例研究,迫使人工智能像人类医生一样,逐步请求信息并安排测试以得出诊断结果。
结果令人震惊。当MAI-DxO系统与OpenAI的最新模型结合使用时,正确解决了85.5%的这些具有挑战性的案例,而由21名执业医生组成的专家组在相同案例上的平均准确率仅为20%。此外,人工智能更具成本效益,在减少不必要的开支的同时得出了正确的诊断结果——这一点至关重要,因为根据《美国医学会杂志》(JAMA)发表的研究,美国高达25%的医疗支出被认为是浪费。
临床推理的新基准
微软成就的核心在于MAI-DxO的设计理念,作为一个“协调者”,该系统模拟了一个虚拟的多学科医生团队。它并非依赖单一的人工智能模型,而是协调多个采用不同方法分析案例、形成假设并决定下一步测试的AI代理。这种与模型无关的框架在预印本论文中有详细说明,旨在增强高风险临床环境中的安全性和透明度。
这种逐步、注重成本的评估方式标志着与早期基准的显著区别,后者被批评为夸大了人工智能的能力。通过成功处理《新英格兰医学杂志》的案例文件——这些案例以其高度的智力挑战性著称——微软证明其人工智能可以应对临床推理中的模糊性和复杂性。然而,一些专家提醒谨慎,指出这些NEJM文件代表的是极端案例。真正的考验可能并不是解决干净、文档齐全的医学难题,而是将这些能力整合到繁忙医院的混乱工作流程中。
从工作流程自动化到高级诊断
对微软而言,这是一个战略性平台举措,旨在创建一个利用公司与大型医院系统现有企业关系的智能引擎。微软近年来的发展轨迹清楚地表明,其正在从解决行政和工作流程问题转向攻克核心临床问题。
这一旅程包括2023年Azure AI Health Bot Copilot的私人预览版,这是一个供医疗机构构建自己助手的平台。随后在2024年中期推出了GigaPath等专门工具,这是一种用于分析大规模病理切片的视觉模型。最近,在2025年初,微软发布了Dragon Copilot,这是一款基于2021年收购Nuance Communications(价值197亿美元)技术开发的语音助手。该工具旨在通过自动化文档来减轻临床医生的倦怠感。而随着MAI-DxO的问世,微软正从协助临床医生向直接增强其诊断能力迈进。
科技巨头的激烈竞争
微软并非唯一一家致力于人工智能驱动医疗突破的公司,其主要竞争对手正从不同角度切入这一领域。例如,谷歌正在扩大与HCA Healthcare的合作,部署生成式人工智能以自动化临床文档,直接与微软的工作流程工具展开竞争。这建立在Google DeepMind的基础科学研究声誉之上,包括其AlphaFold项目以及与BioNTech在人工智能实验室助理方面的合作。
与此同时,OpenAI采取了一种以法规优先的方法,与美国食品药品监督管理局(FDA)讨论利用人工智能简化漫长的药物评估流程。更广泛的领域还包括越来越多的初创公司,例如总部位于巴黎的Bioptimus,该公司发布了一款开源病理学模型,表明医学领域的人工智能竞赛已经超越了科技巨头。
患者数据的未解挑战
部署这些强大系统的过程充满了伦理和实际挑战,尤其是在数据隐私方面。训练医疗人工智能所需的庞大数据库引发了公众和监管机构的重大担忧。英国近期围绕NHS“Foresight”模型的争议凸显了这些问题,该模型基于5700万人的去标识化记录进行训练。专家警告称,如此丰富的数据使得重新识别成为持续的风险。
这场辩论突显了开发像MAI-DxO这样的工具所肩负的巨大责任。行业应采用“数据尊严”原则作为框架,确保个人数据的商业用途是一个透明的过程,并使数据提供者能够获得明确的利益回报。
随着微软及其竞争对手推动人工智能在医学领域的技术边界,他们的最终成功可能不仅仅取决于算法的准确性,还取决于他们能否驾驭这一复杂的伦理环境。正如微软所言,“通往医学超级智能的道路”不仅是一个技术问题,更是一个社会和监管问题,其中建立公众信任与证明临床效果同样至关重要。
(全文结束)

