人工智能能否超越医生进行诊断?微软的一项新工具在复杂病例中的表现比医生高出四倍。
微软最新推出的医疗AI系统——Microsoft AI Diagnostic Orchestrator(简称MAI-DxO),在《新英格兰医学杂志》(NEJM)的病例测试中达到了85%的诊断准确率。这一成绩是人类医生平均准确率的四倍以上。NEJM的病例通常非常复杂,往往需要多位专科医生的协作才能解决。
相关阅读:OpenAI的HealthBench显示AI医疗建议正在改善——但谁会听从?
鉴于医疗系统的难以接近、复杂性和混乱性,人们越来越多地寻求技术的帮助也就不足为奇了。
微软在其官方博客中表示:“在微软的AI消费产品(如Bing和Copilot)中,我们每天看到超过5000万次与健康相关的查询。” 从首次搜索膝盖疼痛到深夜寻找急诊诊所,搜索引擎和AI助手正在迅速成为医疗保健的新前线。
工作原理
人类医生必须通过美国医师执照考试(USMLE)才能执业,而这项考试也被用来评估AI系统在医疗情境中的表现,包括模型之间的比较以及与人类的对比。
目前,AI在USMLE上的表现良好。微软指出,这是因为模型倾向于“记忆”而非“理解”多项选择题的答案,而这并不能产生最可靠的医学分析。大多数行业标准的AI基准测试早已被饱和,意味着AI模型的发展速度已经超过了测试的挑战性。
为了解决这一问题,微软创建了“顺序诊断基准测试”(Sequential Diagnosis Benchmark,简称SD Bench)。顺序诊断是真实临床医生使用的诊断方法,即根据患者的症状表现开始,逐步提出问题并进行测试。该测试基于304个NEJM病例提出了诊断挑战,供人类和AI模型提问。
相关阅读:Anthropic称Claude能够为用户提供情感支持——但我们并不信服
随后,微软将诊断代理MAI-DxO与多个前沿模型(包括GPT、Llama、Claude、Gemini、Grok和DeepSeek)配对,并将其应用于SD Bench测试。微软解释说,MAI-DxO能将所使用的任何大型语言模型(LLM)转化为一个“由具有不同诊断方法的虚拟医生组成的团队”,共同解决诊断案例。
在演示视频中,MAI-DxO展示了其推理过程:它向基准测试提问,生成可能的诊断,并追踪每次请求测试的成本。一旦代理从基准测试中获取了足够的信息,它会调整诊断结果,要求不同的扫描,并展示一种更贴近人类医生的诊断流程。
成本更低的正确诊断
微软的博客文章指出:“MAI-DxO提升了我们测试的所有模型的诊断性能。” 系统在与OpenAI的o3模型搭配使用时表现最佳。微软将结果与来自英国和美国的21名经验在5至20年之间的医生进行了比较,这些医生的平均诊断准确率仅为20%。
相关阅读:您不应该信任AI进行心理治疗——原因在此
微软还提到,MAI-DxO具有可配置性,这意味着它可以运行在用户或组织设定的成本限制内。这一功能使代理能够对某些测试进行成本效益分析,这对于美国高昂的医疗费用尤其重要,也是人类医生和患者需要考虑的问题。
这一功能也起到了某种“护栏”的作用。微软解释道,如果没有这一限制,AI可能会“默认订购所有可能的测试,而不考虑成本、患者不适或护理延误”。此外,MAI-DxO不仅比单个模型或人类医生更准确,而且成本更低。
AI会取代您的医生吗?
短期内可能不会。尽管微软的博客文章指出,由于AI知识的广度,它可以在许多临床推理方面超越“任何个体医生的能力”。
微软认为,像这样的系统可以通过让患者可靠地自我检查以及协助医生处理复杂病例来“重塑医疗保健”。此外,节省成本也将为这个长期受高成本和不透明定价结构困扰的行业带来额外的好处。
相关阅读:AI正在缓解治疗师的职业倦怠。这是如何改变心理健康领域的
微软承认,MAI-DxO仅在这些特殊病例上进行了测试,因此尚不清楚它在日常任务中的表现如何。不过,如果该代理并非旨在取代人类医生,这一问题可能无关紧要。微软在博客文章中也重申了这一点。
MAI-DxO是微软去年启动的“消费者健康专项计划”的一部分。该计划中的其他AI产品包括放射科工作流工具RAD-DINO和专为医疗专业人士设计的语音AI助手Microsoft Dragon Copilot。
(全文结束)