医疗人工智能的基准测试基础
为什么医生是比电子病历更适合的AI基准
萨拉·格鲍尔医学博士
2025年2月18日
什么是基准测试?
人工智能领域的"基准测试"存在多重定义,这与"数据集"、"验证"等术语面临的术语混淆问题类似。字典对基准的定义是:通过与标准进行比较来评估或检验某事物。该定义需要存在既定标准,但在AI领域这种情况往往并不存在。早在2020年,丹·亨德里克斯在与埃隆·马斯克的对话中受启发,创建了MMLU(多任务语言理解基准)。这个由伯克利团队开发的基准整合了大量标准化考试内容,体现了利用现成有效评估题目的合理性——因为这些题目已经对应了人类表现基准(后文将详述此概念)。
基准测试的重要性
标准化测试通过统一评价体系比较AI系统,这与比较人类表现具有高度相似性。事实上,最早的AI基准测试(包括部分MMLU题目)就直接采用医学标准化考试内容。例如MedQA基准包含美国医师执照考试(USMLE)题目,而MedMCQA则收录了印度医学考试的2400道医疗问题。若您正在阅读本文,我们猜测您的标准化考试能力优于平均水平。但即便如此,您仍然不太可能在统计上超越Med-Gemini的表现。
标准化测试与AI基准测试存在相似的优劣特性:无法完整反映实际能力,针对类似材料的训练虽具优势却未必体现真实知识水平等。基准测试最有价值之处在于实现"同类比较",特别是以人类可理解的格式呈现结果。AI系统可以处理原始数据流,但人类仍偏好可视化呈现和故事叙述。基准测试让我们能快速评估模型相对于其他AI系统的性能表现。
医疗领域的基准偏好!
但知识/标准化考试基准只是基准测试的一种形式。
在医学领域我们对基准测试的概念再熟悉不过。实际上,医生们始终处于被基准测试的状态——这被称为绩效指标、效率指标或临床质量指标。各类算法持续将我们与其他医生进行对比:每小时接诊患者数、遵循临床实践指南的频率、患者满意度等。部分指标通过Medicare.gov网站公开(曾被恰当地命名为"医师比较"),另一些则属于特定医疗机构的持续专业表现评估体系。外科等专科相较麻醉科等往往拥有更多公开的绩效指标。
有趣的是,欧内斯特·科德曼医生常被视为医学基准测试之父,其开发的"终末结果系统"实质是手术结果追踪体系。该体系在20世纪初引发强烈争议,导致他在1900年代初被迫辞去马萨诸塞州总医院职务。但其对结果测量理念的坚持最终促使其创办相关诊所,却也因此破产。他的体系奠定了美国外科学院追踪系统的基础,而该系统又演变为如今备受推崇的联合委员会(Joint Commission)。
我不禁想象科德曼医生会如何看待Yelp上的医师评价
临床试验和非劣效性研究本质上也是基准测试形式,没有这些医学发展将举步维艰:我们如何判断药物优劣?如何决定植入何种医疗设备?
将基准测试应用于医疗AI
这就引出了一个核心问题:我们该如何基准测试医疗AI?
首先,我们应借鉴医疗信息技术的基准经验。例如电子病历(EHR)的基准测试是否足够丰富?
实际情况是,EHR系统的公开评估数量远少于对医生的评估。美国国家协调办公室(ONC)理论上发布过EHR绩效报告,但笔者未能找到真正比较EHR功能或性能的资料。KLAS公司发布的报告需付费购买。多数EHR绩效信息在认证过程中被作为商业机密保密。
这就造成了一个荒诞现实:软件性能相关的隐私保护程度竟然超过了执业医师的隐私保护。
在未来的Substack文章中,我们将探讨:
- 医疗AI评估类型
- 公开可用的AI评估
- 人类基线设定
感谢阅读萨拉·格鲍尔医学博士的《写给医生的机器学习》通讯,欢迎免费订阅这份专注于医疗AI(或至少我感兴趣领域)的资讯。
【全文结束】

