微软称新AI工具在诊断复杂医疗问题上胜过医生 - AI与医疗健康

微软称新AI工具在诊断复杂医疗问题上胜过医生New AI tool is better than doctors at diagnosing complicated medical issues, Microsoft says

环球医讯 / AI与医疗健康来源：www.euronews.com美国 - 英文2025-07-10 10:19:26 - 阅读时长3分钟 - 1029字

微软开发的新AI工具在一项研究中表现出比医生更精准的复杂疾病诊断能力，准确率高达85.5%，远超经验丰富的医生团队，同时降低了诊断成本，展现了AI在医疗领域的巨大潜力，但其应用仍需更多验证。

微软表示，其新开发的人工智能（AI）工具在诊断复杂医疗问题方面表现优于医生，这是迈向“医疗超级智能”的重要一步。

科技巨头们正在竞相开发超级智能，即一种在各方面都超越人类智力的AI系统，并承诺将彻底改变全球医疗体系。微软最新的实验表明，这一目标可能并不遥远。

在这项实验中，微软将一款AI诊断系统与21名经验丰富的医生进行了对比测试，使用了来自《新英格兰医学杂志》（New England Journal of Medicine）中304名患者的真实病例。结果表明，这款AI工具正确诊断了高达85.5%的病例，比英国和美国的医生团队高出约四倍。这些医生拥有5至20年的临床经验。

分析还发现，该AI模型不仅诊断更准确，而且比人类医生更具成本效益，因为它减少了扫描和检测的次数。微软表示，这项研究表明，AI模型能够解决让医生感到棘手的复杂诊断问题。虽然医生在其专业领域内具有深厚知识，但他们无法精通医学的每一个方面。而AI“可以融合广度和深度的专业知识，在许多临床推理方面展现出超越任何个体医生的能力”，微软高管在一份新闻稿中表示，“这种推理能力有潜力重塑医疗保健体系”。

尽管如此，微软并不认为AI会在短期内取代医生。相反，公司表示，这些工具将帮助医生自动化一些常规任务、个性化患者的治疗方案并加快诊断速度。

模型的工作原理

微软的AI系统通过模仿医生的诊断过程来完成诊断任务：收集患者的详细信息、安排检测并最终缩小诊断范围。一个“看门人代理”负责存储患者病例的信息，并与“诊断协调器”互动，后者提出问题并安排检测，接收真实世界案例中的检测结果。

微软还与其他领先的AI模型进行了对比测试，包括GPT、Llama、Claude、Gemini、Grok和DeepSeek。结果显示，OpenAI的o3模型（集成在ChatGPT中）正确解决了85.5%的患者病例，而21名经验丰富的医生的平均正确率仅为20%。

局限性与下一步计划

研究人员已将他们的研究结果以预印本的形式在线发布，这意味着它尚未经过同行评审。微软也承认了一些关键局限性，特别是AI工具目前仅针对复杂健康问题进行了测试，尚未应用于更常见、日常的医疗问题。此外，参与测试的医生在诊断过程中无法使用同事的帮助、教科书或其他常用工具。微软表示：“这是为了实现与纯粹人类表现的公平比较。”

公司呼吁进一步收集AI在实际诊所中的潜在证据，并表示将在更广泛推广之前“严格测试和验证这些方法”。

(全文结束)