斯坦福大学评估医疗保健中的人工智能代理Stanford benchmarks AI agents in healthcare - Becker's Hospital Review | Healthcare News & Analysis

环球医讯 / AI与医疗健康来源:www.beckershospitalreview.com美国 - 英语2025-09-17 01:21:20 - 阅读时长2分钟 - 823字
斯坦福大学研究团队开发了评估人工智能代理在医疗保健领域准确性和有效性的基准测试体系,研究成果发表于《新英格兰医学杂志AI》。该研究通过构建包含100个真实患者档案和78.5万条电子健康记录的模拟环境,测试了12种大型语言模型完成300项临床任务(如开立检查单、开具处方和检索患者信息)的能力,发现较新模型如Claude 3.5 Sonnet v2成功率最高达69.67%,但模型在复杂工作流的细致推理和跨医疗系统互操作性方面仍存在显著挑战,这为未来优化AI工具在真实医疗场景中的应用提供了关键参考和改进路径,标志着医疗AI从理论向实践转化的重要一步。
斯坦福大学人工智能代理医疗保健电子健康记录大型语言模型临床任务准确性与有效性基准测试模型成功率真实世界试点
斯坦福大学评估医疗保健中的人工智能代理

斯坦福大学(Stanford University)研究团队开发了用于衡量人工智能代理在协助医生方面的准确性和有效性的基准测试,并将其研究发现发表在《新英格兰医学杂志AI》上。

该团队测试了大型语言模型处理医疗信息和为医生完成行政任务(如开立检查单、开具处方和检索患者信息)的能力。

斯坦福大学在新闻稿中援引该论文高级作者、医学和生物医学数据科学副教授乔纳森·陈(Jonathan Chen)的话称:“聊天机器人只会说话,而人工智能代理能够行动。这意味着它们理论上可以直接从电子病历中检索患者信息,对这些信息进行推理,并通过直接输入检查和药物订单来采取行动。在高风险的医疗保健领域,这对自主性提出了更高的要求。我们需要一个基准来确立人工智能在可重复任务上的当前能力水平,以便我们能够优化。”

研究人员开发了一个包含100个真实患者档案(共78.5万条记录)的电子健康记录环境,以测试大型语言模型作为人工智能代理完成300项临床任务的能力。他们测量了错误类型和频率,以了解人工智能代理在现实情况中的表现,发现许多模型在处理复杂工作流所需的细致推理方面存在困难。当记录来自多个医疗系统时,互操作性也成为一个挑战。

模型的成功率如下:

  1. Claude 3.5 Sonnet v2:69.67%
  2. GPT-40:64%
  3. DeepSeek-V3(685B,开源):62.67%
  4. Gemini-1.5 Pro:62%
  5. GPT-40-mini:56.33%
  6. O3-mini:51.67%
  7. Qwen2.5(72B,开源):51.33%
  8. Llama 3.3(70B,开源):46.33%
  9. Gemini 2.0 Flash:38.33%
  10. Gemma2(27B,开源):19.33%
  11. Gemini 2.0 Pro:18%
  12. Mistral v0.3(7B,开源):4%

较新的大型语言模型比旧模型表现更好,研究人员认为未来可以在真实世界试点中测试这些工具。

【全文结束】

大健康

猜你喜欢

  • 关注人工智能赋能医疗设备的临床验证缺口关注人工智能赋能医疗设备的临床验证缺口
  • 重新定义速度:人工智能在临床决策中的革命重新定义速度:人工智能在临床决策中的革命
  • 计算机视觉与医疗保健:技术如何展现未来图景计算机视觉与医疗保健:技术如何展现未来图景
  • 消费技术协会发布预测性健康人工智能开发标准消费技术协会发布预测性健康人工智能开发标准
  • 为何乡村医院也需要人工智能电子健康记录工具为何乡村医院也需要人工智能电子健康记录工具
  • 患者利用人工智能解读医疗报告患者利用人工智能解读医疗报告
  • Q&A: 医疗人工智能系统的透明性至关重要,研究人员称Q&A: 医疗人工智能系统的透明性至关重要,研究人员称
  • 从工具到队友:代理式人工智能如何重塑医疗保健的操作系统从工具到队友:代理式人工智能如何重塑医疗保健的操作系统
  • 优化医疗保健:AI医疗编码对效率与准确性的影响优化医疗保健:AI医疗编码对效率与准确性的影响
  • 研究发现英国国家医疗服务体系医院的人工智能部署因实施难题受阻研究发现英国国家医疗服务体系医院的人工智能部署因实施难题受阻
  • 与Altera Digital Health展开一场关于人工智能的人性化对话与Altera Digital Health展开一场关于人工智能的人性化对话
  • OpenAI的医疗大动作:人工智能推动医疗创新OpenAI的医疗大动作:人工智能推动医疗创新
  • 为什么医疗保健领域的人工智能项目会失败及其应对措施为什么医疗保健领域的人工智能项目会失败及其应对措施
  • InterSystems READY 2025峰会聚焦生成式人工智能与非洲新一代医疗创新InterSystems READY 2025峰会聚焦生成式人工智能与非洲新一代医疗创新
  • 西弗吉尼亚大学研究人员训练人工智能通过低技术心电图诊断农村地区心力衰竭患者西弗吉尼亚大学研究人员训练人工智能通过低技术心电图诊断农村地区心力衰竭患者
  • 弗洛伦斯医疗保健推出人工智能辅助工作流重塑临床试验弗洛伦斯医疗保健推出人工智能辅助工作流重塑临床试验
大健康
大健康

热点资讯

大健康

全站热点

大健康

全站热文

大健康