医疗人工智能基准测试的基础知识 - AI与医疗健康

医疗人工智能基准测试的基础知识The Basics of Benchmarking in Healthcare AI

环球医讯 / AI与医疗健康来源：substack.com美国 - 英语2025-08-21 04:31:19 - 阅读时长4分钟 - 1591字

文章系统阐述了医疗人工智能基准测试的核心概念，通过对比医学标准化考试与临床绩效评估体系，解析了AI系统在医疗领域的评估方法论，并深入探讨了电子健康记录系统评估机制的局限性与未来发展方向。

医疗人工智能的基准测试基础

为什么医生是比电子病历更适合的AI基准

萨拉·格鲍尔医学博士

2025年2月18日

什么是基准测试？

人工智能领域的"基准测试"存在多重定义，这与"数据集"、"验证"等术语面临的术语混淆问题类似。字典对基准的定义是：通过与标准进行比较来评估或检验某事物。该定义需要存在既定标准，但在AI领域这种情况往往并不存在。早在2020年，丹·亨德里克斯在与埃隆·马斯克的对话中受启发，创建了MMLU（多任务语言理解基准）。这个由伯克利团队开发的基准整合了大量标准化考试内容，体现了利用现成有效评估题目的合理性——因为这些题目已经对应了人类表现基准（后文将详述此概念）。

基准测试的重要性

标准化测试通过统一评价体系比较AI系统，这与比较人类表现具有高度相似性。事实上，最早的AI基准测试（包括部分MMLU题目）就直接采用医学标准化考试内容。例如MedQA基准包含美国医师执照考试（USMLE）题目，而MedMCQA则收录了印度医学考试的2400道医疗问题。若您正在阅读本文，我们猜测您的标准化考试能力优于平均水平。但即便如此，您仍然不太可能在统计上超越Med-Gemini的表现。

标准化测试与AI基准测试存在相似的优劣特性：无法完整反映实际能力，针对类似材料的训练虽具优势却未必体现真实知识水平等。基准测试最有价值之处在于实现"同类比较"，特别是以人类可理解的格式呈现结果。AI系统可以处理原始数据流，但人类仍偏好可视化呈现和故事叙述。基准测试让我们能快速评估模型相对于其他AI系统的性能表现。

医疗领域的基准偏好！

但知识/标准化考试基准只是基准测试的一种形式。

在医学领域我们对基准测试的概念再熟悉不过。实际上，医生们始终处于被基准测试的状态——这被称为绩效指标、效率指标或临床质量指标。各类算法持续将我们与其他医生进行对比：每小时接诊患者数、遵循临床实践指南的频率、患者满意度等。部分指标通过Medicare.gov网站公开（曾被恰当地命名为"医师比较"），另一些则属于特定医疗机构的持续专业表现评估体系。外科等专科相较麻醉科等往往拥有更多公开的绩效指标。

有趣的是，欧内斯特·科德曼医生常被视为医学基准测试之父，其开发的"终末结果系统"实质是手术结果追踪体系。该体系在20世纪初引发强烈争议，导致他在1900年代初被迫辞去马萨诸塞州总医院职务。但其对结果测量理念的坚持最终促使其创办相关诊所，却也因此破产。他的体系奠定了美国外科学院追踪系统的基础，而该系统又演变为如今备受推崇的联合委员会（Joint Commission）。

我不禁想象科德曼医生会如何看待Yelp上的医师评价

临床试验和非劣效性研究本质上也是基准测试形式，没有这些医学发展将举步维艰：我们如何判断药物优劣？如何决定植入何种医疗设备？