微软表示,其强大的新型AI工具能够比一组人类医生更准确地诊断疾病,并且成本显著降低。微软的人工智能部门首席执行官穆斯塔法·苏莱曼(Mustafa Suleyman)称这是“迈向医疗超级智能的真正一步”。
微软团队使用了来自《新英格兰医学杂志》的304个案例研究,设计了一个名为“顺序诊断基准”的测试。一个语言模型将每个案例分解为逐步过程,模拟医生通常会进行的诊断步骤。
随后,微软的研究人员构建了一个名为MAI诊断协调器(MAI-DxO)的系统,该系统以类似于几位人类专家协作的方式查询多个领先的AI模型,包括OpenAI的GPT、谷歌的Gemini、Anthropic的Claude、Meta的Llama和xAI的Grok。
在实验中,MAI-DxO的表现优于人类医生,准确率达到80%,而医生的准确率为20%。它还通过选择更便宜的测试和程序降低了20%的成本。
苏莱曼表示:“这种协调机制——多个代理以辩论链的方式协同工作——这将推动我们更接近医疗超级智能。”
为了帮助完成这一项目,微软挖走了几位谷歌AI研究人员,这是科技行业争夺顶级AI人才日益激烈的一个迹象。苏莱曼此前曾在谷歌从事AI相关的工作。
AI已经在美国医疗保健行业的某些领域广泛使用,例如帮助放射科医生解读扫描结果。最新的多模态AI模型有潜力充当更通用的诊断工具,不过在医疗领域使用AI也带来了自身的问题,尤其是与训练数据偏向特定人口统计数据相关的偏见问题。
微软尚未决定是否会尝试将该技术商业化,但一位匿名发言的高管表示,公司可能将其集成到Bing中,以帮助用户诊断疾病。公司还可以开发工具来帮助医学专家改进甚至自动化患者护理。苏莱曼说:“在未来几年里,你会看到我们在现实世界中越来越多地证明这些系统的有效性。”
该项目是最新的研究成果之一,展示了AI模型如何诊断疾病。过去几年里,微软和谷歌都发表了论文,表明大型语言模型在获得医疗记录访问权限时可以准确诊断疾病。
微软的新研究不同于以往的工作之处在于,它更准确地复制了人类医生诊断疾病的方式——通过分析症状、安排测试并进行进一步分析,直到得出诊断。微软在其博客文章中描述了如何结合多个前沿AI模型作为“通往医疗超级智能的路径”。
该项目还表明,AI可以帮助降低医疗成本,这是一个关键问题,尤其是在美国。“我们的模型表现非常出色,不仅能够得出诊断,还能以极具成本效益的方式实现这一点,”参与该项目的微软副总裁多米尼克·金(Dominic King)说道。
麻省理工学院科学家、医疗AI工具初创公司Layer Health联合创始人大卫·松塔格(David Sontag)表示:“这非常令人兴奋。”松塔格说,这项工作之所以重要,不仅因为它更贴近医生的操作方式,还因为它严格解决了潜在方法论问题。“这正是让这篇论文显得强有力的原因,”他说。
但松塔格补充道,应谨慎对待微软的研究结果,因为在研究中,医生被要求不得使用任何额外工具来辅助诊断,而这可能无法反映他们在现实生活中的操作方式。他还指出,在实践中,AI系统是否能显著降低成本仍有待观察。参与研究的医生可能考虑到了AI无法考虑到的因素,例如患者对某种手术的耐受性或某种医疗仪器的可用性。
斯克里普斯研究所的科学家埃里克·托波尔(Eric Topol)表示:“这是一份令人印象深刻的报告,因为它针对的是高度复杂的诊断案例。”他补充道,展示AI理论上能够降低医疗成本是新颖的。
麻省理工学院的松塔格和托波尔都表示,在全面部署之前,验证微软系统潜力的下一步将是通过临床试验,将其结果与真实医生治疗真实患者的疗效进行比较。“这样你才能得到一个非常严谨的成本评估,”松塔格说道。
(全文结束)

