在医疗领域应用人工智能的热潮背后,迫切需要建立能够验证AI代理在电子健康记录系统中执行医生常规任务的能力基准。
斯坦福大学跨学科研究团队开发的MedAgentBench基准测试体系,为评估医疗AI代理的实用价值提供了新方案。这项发表于《新英格兰医学杂志AI子刊》的研究,构建了包含100个真实患者档案(含785,000条实验室数据、生命体征、用药记录等)的虚拟电子健康记录环境,由医师开发300项临床任务对多个大型语言模型进行测试。
研究显示,当前最佳模型Claude 3.5 Sonnet v2在执行检索患者数据、开具检查单等临床任务时达到69.67%的成功率。斯坦福临床信息学研究员Kameron Black指出:"测试揭示了AI代理在复杂流程处理和跨医疗系统互操作性方面的局限性,这些正是临床医生每日面临的挑战。"
不同于传统聊天机器人的被动响应模式,AI代理能够自主执行多步骤任务。研究团队开发的测试框架要求AI代理通过FHIR API端点操作电子病历,模拟真实临床场景中的数据复杂性。该研究的主要作者Jonathan Chen教授强调:"在医疗高风险环境中,我们需要建立可复现的基准来评估AI代理的自主决策能力,这远高于单纯问答的评估门槛。"
测试结果揭示了前沿模型的能力差距:GPT-4o-mini成功率为56.33%,而开源模型Llama 3.3(70B)仅为46.33%。研究团队观察到新一代模型在特定错误模式上已有显著改进,认为AI代理处理基础临床"行政工作"的应用可能比预期更快实现。
该研究为解决全球医疗人员短缺危机提供了新思路。据预测,到2030年全球医疗人员缺口将超过1,000万。Black表示:"我们的目标不是取代医护人员,而是通过智能工具减轻工作负担,让医疗人员能更多专注于患者护理。在后续研究中,我们已观察到模型执行成功率的显著提升,这表明通过系统化改进和安全设计,医疗AI代理的应用前景正在加速实现。"
研究团队建议建立渐进式评估框架,要求明确标注AI代理可能产生的错误类型和频率,以便在真实临床环境中实施必要的预防措施。该基准测试体系已被斯坦福大学应用于临床决策支持系统的开发,重点关注如何通过结构化设计和患者知情同意机制来确保技术应用的安全性。
论文作者:Yixing Jiang, Kameron C. Black, Gloria Geng, Danny Park, James Zou, Andrew Y. Ng, Jonathan H. Chen
【全文结束】