微软披露了一种人工智能系统的详细信息,该系统在复杂的健康诊断任务中表现优于人类医生,为实现“医疗超级智能”铺平了道路。
由英国科技先锋穆斯塔法·苏莱曼(Mustafa Suleyman)领导的微软AI部门开发了一个模仿专家医师团队处理“诊断复杂且智力要求高”的病例的系统。
微软表示,当与OpenAI的先进o3 AI模型结合使用时,其方法成功解决了超过80%的特别挑选用于诊断挑战的案例研究。而当这些案例交给执业医生处理时——他们无法访问同事、教科书或聊天机器人——准确率仅为20%。
微软还指出,这种系统比使用人类医生更经济,因为它在安排检测时效率更高。
尽管强调了潜在的成本节约,微软淡化了对就业的影响,表示相信AI将补充而非取代医生的角色。
微软在其宣布这项研究的博客文章中写道:“他们的临床角色远不止于做出诊断。他们需要在模糊的情况下导航,并以一种AI无法做到的方式与患者及其家属建立信任。”这篇研究正在提交同行评审。
然而,“通往医疗超级智能之路”的口号引发了医疗市场可能发生的重大变革。虽然人工通用智能(AGI)指的是在任何特定任务上匹配人类认知能力的系统,但超级智能是一个同样理论化的术语,指在所有领域超越人类智力表现的系统。
微软AI首席执行官苏莱曼在接受《卫报》采访时表示,该系统将在未来十年内完美运作。
他说:“很明显,我们正处于这些系统在未来5到10年内几乎无错误运行的道路上。这将大大减轻全球所有医疗系统的负担。”
为了说明研究背后的理由,微软质疑AI在美国内科执照考试(USMLE)中的表现。它指出,多选题测试倾向于奖励记忆答案而不是深入理解某一主题的能力,这可能会“夸大”AI模型的能力。
微软表示,它正在开发一个像现实世界临床医生一样逐步采取措施的系统——例如提出具体问题并要求进行诊断测试——以得出最终诊断。例如,出现咳嗽和发烧症状的患者可能需要血液检测和胸部X光片,然后医生才能诊断出肺炎。
微软的新方法利用了来自《新英格兰医学杂志》(NEJM)的复杂案例研究。
苏莱曼的团队将其中300多个案例转化为“互动案例挑战”,以测试其方法。微软的方法利用了现有的AI模型,包括ChatGPT的开发者OpenAI、马克·扎克伯格(Mark Zuckerberg)的Meta、Anthropic、埃隆·马斯克(Elon Musk)的Grok以及谷歌的Gemini所开发的模型。
微软随后使用了一个定制的、类似代理的AI系统,称为“诊断协调器”,与给定模型合作决定要安排哪些测试以及可能的诊断是什么。这个协调器实际上模仿了一个专家组,从而得出诊断结果。
微软表示,当与OpenAI的先进o3模型结合使用时,它成功解决了超过80%的NEJM案例研究——相比之下,人类医生的成功率为20%。
微软表示,其方法能够展现超出单个医生的“广度和深度的专业知识”,因为它可以跨越多个医学学科。
它补充道:“扩展这一水平的推理能力——甚至超越——有可能重塑医疗保健。AI可以帮助患者自我管理护理的常规方面,并为临床医生提供复杂病例的高级决策支持。”
微软承认其工作尚未准备好用于临床。例如,还需要对其“协调器”进行更多测试,以评估其在更常见症状上的表现。
(全文结束)

