国内健康环球医讯家医百科药品库医药资讯

如何评估医学人工智能

How to Evaluate Medical AI

俄罗斯英语人工智能与健康评估
新闻源:unknown
2025-09-16 18:59:43阅读时长9分钟4259字
医学人工智能医疗保健疾病检测诊断系统评估算法诊断相对精度相对召回率专家判断变异性评估指标临床相关性可靠性

内容摘要

本文提出基于专家诊断差异标准化的相对精度与召回率(RPAD/RRAD)评估体系,通过360组医学对话数据验证多款大模型诊断效能,发现DeepSeek-V3模型一致性超越专家共识。研究表明专家诊断存在显著变异性,传统绝对指标存在局限性,创新性匹配函数实现98%诊断一致性识别,为医疗AI评估提供新范式。

摘要

将人工智能(AI)整合到医学诊断流程中需要稳健且一致的评估方法,以确保可靠性、临床相关性以及对专家判断固有变异性的考量。传统指标如精确度和召回率往往无法考虑专家判断的固有变异性,导致对AI性能评估不一致。科恩卡帕(Cohen’s Kappa)等评分者间一致性统计量更可靠,但缺乏可解释性。我们引入算法诊断相对精度(RPAD)和相对召回率(RRAD)新评估指标,通过对比AI输出与多个专家意见(而非单一参考)来标准化性能评估。通过与专家间分歧归一化,这些指标提供了更稳定和现实的预测诊断质量度量。

除了对诊断质量指标的综合分析,本研究还取得重要附带成果:评估方法避免了诊断列表限制,使模型和验证人员均可得出自由形式的诊断。这种自动建立自由临床诊断一致性的方法实现了98%的惊人准确率。

我们通过360组医学对话数据评估方法,对比多款大型语言模型(LLMs)与医生小组的诊断一致性。大规模研究显示,如DeepSeek-V3等顶级模型的诊断一致性与专家共识相当或更优。更值得注意的是,专家判断存在显著变异性——往往超过AI与人类之间的差异。这一发现凸显了任何"绝对"指标的局限性,并支持在医学AI中采用相对指标的必要性。

1 引言

人工智能在医疗保健领域的快速发展为医学诊断开辟了新天地,有望实现更快、更准确和更可及的疾病检测(Topol, 2019;Yu et al., 2018)。随着AI系统在分析医学影像、实验室结果和患者数据方面展现能力,其革新诊断流程的潜力引起了医疗提供者、研究人员和行业利益相关者的广泛关注(Rajpurkar et al., 2022;McKinney et al., 2020;Liu et al., 2019)。最新研究表明,AI辅助诊断工具在特定领域(如放射影像癌症检测或组织样本病理模式识别)的表现可与或甚至超越人类表现。

然而,AI诊断的实施面临若干需要仔细审查的关键挑战。可靠性、可重复性和泛化能力仍是医学界关注的核心问题(Nagendran et al., 2020;He et al., 2019;Roberts et al., 2021)。许多AI算法的"黑箱"特性,加上训练数据中的潜在偏见和现实临床环境中的变异性,引发了关于系统可信度和临床有效性的重大问题(Chen et al., 2021;Obermeyer et al., 2019;Gianfrancesco et al., 2018)。此外,将AI诊断整合到现有医疗流程中还存在监管合规性、责任考量和标准化验证协议等实际挑战(Wiens et al., 2019;Panch et al., 2019)。

2 相关研究

2.1 医学诊断系统演变

早期基于规则的专家系统如Mycin和DXplain开创了AI支持临床决策的先河(Shortliffe, 1977;Barnett et al., 1987)。这些系统依赖手工编写规则和知识库,提供可解释推荐。但其静态特性限制了适应性,特别是在应对复杂多变的患者表现时。后续时期引入了由机器学习技术驱动的特定任务AI模型。平台如Babylon Health和Ada Health展示了数据驱动方法在分诊和症状评估中的潜力(Moramarco et al., 2021;Kühnel et al., 2023)。尽管这些模型在诊断速度和可扩展性上有所改进,但往往依赖狭窄的训练数据集和单轮互动,限制了其进行更全面诊断推理的能力。

2.2 质量指标的重要性

随着诊断系统的复杂化,质量指标在评估其性能中的作用日益凸显。传统准确度量虽然有用,但往往无法捕捉现实世界诊断任务的复杂性(Zhou et al., 2024;Shi et al., 2024)。需要更细致的指标不仅要评估系统正确回答的频率,还要评估其处理模糊案例、罕见疾病和多样化患者群体的能力。近期研究强调反映临床相关性和安全性的指标重要性(Mehandru et al., 2024;Meng et al., 2024;Nazi和Peng, 2024;Bedi et al., 2024)。例如,研究提出使用与医生判断一致或基于模拟真实临床工作流程的指标(Mehandru et al., 2024;Ahsan et al., 2024)。这些方法确保AI系统在与实际使用环境相似的背景下进行评估。此外,分层指标(如跨不同人口群体的性能度量)正成为识别和缓解偏见的关键工具(Yang et al., 2024;Simmons et al., 2024)。

2.3 稳定指标之路

鉴于这些挑战,我们引入了一种与专家临床判断密切对应的新型评估指标。该指标通过考虑临床相关性和可靠性,提供更稳定和有意义的模型性能视图。通过在基于模拟和现实临床场景中的严格测试,我们证明该指标能更好捕捉医学诊断的细微差别,为理解和改进AI诊断系统提供更清晰的路径。

3 方法

算法工作的结果是一系列诊断假设(以下简称诊断)。要评估系统质量,必须解决两个问题:一是选择评估系统质量的指标;二是确定两个包含诊断的文本字符串是否包含相同诊断。我们提出定量评估算法诊断的指标:算法诊断相对精度(RPAD)和相对召回率(RRAD)。第二个问题通过选择匹配函数解决。

3.1 指标

诊断系统输出𝔇=[[D1,…,Dn]],n∈ℕ是n个诊断包D=[[d1,…,dk]],k∈ℕ的集合,其中d是包含诊断的文本字符串。专家期望性能集𝔈={E1,…,Ez},z∈ℕ,专家E是函数E:ℭ↦𝔇。算法A:ℭ↦𝔇,且不在专家集中。定义算法与专家间的成对精度P和召回率R:

PAE@k=∑i=1nμ(DiA,DiE)/(nk²)

RAE@k=∑i=1nχ(DiA,DiE)/n

其中μ是多重性函数,χ是特征函数。专家间指标同理。定义乐观相对指标:

Poрt@k=(max{PAE1@k,…,PAEz@k})/(min{PE1E2@k,…,PEz-1Ez@k})

定义平均相对指标:

Pavg@k=(1/z)∑i=1zPAEi@k/(2/z(z-1))∑i=1z-1∑j=i+1zPEiEj@k

最终定义RPAD和RRAD:

RPAD@k=[(1-H)·max{PAE@k}+H·PAE@k¯]/[(1-H)·min{PEE@k}+H·PEE@k¯]

RRAD@k=[(1-H)·max{RAE@k}+H·RAE@k¯]/[(1-H)·min{REE@k}+H·REE@k¯]

其中H∈[0,1]是硬度参数。这些指标的含义是:任一指标低于1.0表示专家间一致性高于专家与算法间一致性,反之则相反。

3.2 匹配函数

为解决诊断文本匹配问题,我们实现了基于全面特征工程的监督元模型方法。该模型用于定义匹配函数M,预测诊断对(dA,dE)是否应被视为匹配。

特征构建与预处理

匹配函数在标记诊断对上通过多阶段流水线训练。首先应用预处理标准化数据,包括小写化、标点去除、缩写扩展和领域特定规则修正。训练集4833个样本,测试集1469个样本,由3位专家标注(多数投票决定最终标签),另1位专家根据专家开发的标准审查测试集。

训练元模型时提取17个特征,分为四类:

  1. 直接LLM提示:使用Llama-3.1-70B-Instruct等5个模型评估诊断相似性,输出二元特征。
  2. 带RAG和ICD词典的LLM:使用检索增强生成(RAG)系统索引20000+ ICD条目,通过BERGAMOT模型生成嵌入。
  3. 文本嵌入相似性:使用Giga、BERGAMOT、Arctic-Embed模型计算余弦相似度。
  4. 语言相似性比率:计算n-gram、词干、词元、词性标签的交集大小与最小集合大小的比率。

元模型训练与评估

使用AutoGluon AutoML框架训练,目标为交叉验证的平均精度。训练限制为1小时,启用自动集成(堆叠)。最终最佳模型是LightGBM分类器的装袋集成。

特征重要性与选择

初始通过相关性分析过滤低信息特征(如2-gram和词性标签比率),但未见性能提升。最终基于AutoGluon提供的排列-混洗特征重要性选择,所有特征均有非负贡献。SHAP值分析验证了特征重要性。

表2显示最终匹配函数MM的评估指标:

指标 数值
精确度 0.91
召回率 0.90
F1值 0.91
准确率 0.98

4 结果与讨论

4.1 数据

原始数据集包含n=360组对话。前半部分是两位专家扮演预设场景的对话(一位扮演患者,一位扮演医生)。后半部分是患者扮演者与LLM医生的对话。真值标签由z=7位住院医师专家标记,每位专家对每组对话标记kmаx=3个诊断。

4.2 LLM比较

基于专家数据,计算不同LLM的成对和相对指标。表3显示不同LLM的相对诊断质量:

LLM Pavg@1 Popt@1 Ravg@3 Ropt@3
GigaChat-Max 1.09 + 1.12 +
Qwen-72B 1.00 + 1.06 +
DeepSeek-V3 1.15 + 1.16 +
GPT4o 1.13 + 1.13 +

DeepSeek-V3显示最高一致性,与GigaChat-Max和GPT4o的差距不显著。Dist-Qwen32B和Llama-405B表现最差。Roрt@3<1表示这两个模型无法作为候选。

图4显示相对精度和召回率随诊断数量变化的趋势,DeepSeek-V3始终表现最佳。虚线代表1.0阈值,超过表明模型与专家的一致性至少与专家间相当或更优。DeepSeek-V3在RRAD@k多次超过该阈值,显示其与甚至超越专家共识的一致性。

4.3 专家响应变异性

计算专家和算法响应的精度和召回率分布(图5)。以DeepSeek-V3为例,模型响应比专家间响应更集中。计算无偏标准差(图6):

σRA=√[1/(z-1)∑i=1z(RAEi@k-RA𝔈@k¯)²]

σR𝔈¯=1/z∑i=1z√[1/(z-2)∑j≠iz(REiEj@k-REi𝔈@k¯)²]

结果显示专家响应方差显著高于各模型,有时高达数倍。因此优选相对指标RPAD和RRAD评估算法诊断质量。专家意见差异如此之大,绝对指标在选择不同专家时可能相差数倍。

4.4 科恩卡帕

计算科恩卡帕(κ)分布(图7)的无偏方差估计:

σκA=√[1/(z-1)∑i=1z(κAEi-κA𝔈¯)²]

σκ𝔈¯=1/z∑i=1z√[1/(z-2)∑j≠iz(κEiEj-κEi𝔈¯)²]

科恩卡帕在DeepSeek-V3与专家对中的分布与专家间完全重叠,表明其缺乏区分模型的分辨率。原因包括:

相比之下,RPAD和RRAD基于专家间方差归一化,在高专家变异性下提供更可靠和可解释的诊断性能比较。

5 结论

本研究揭示评估AI诊断系统的关键挑战:专家判断的高变异性。分析显示人类专家间分歧常大于AI模型与专家共识差异。这种变异性使传统绝对指标不可靠,结果因所选专家而异。

我们引入相对指标(RPAD和RRAD),通过对比AI输出与专家意见范围而非单一参考,提供更稳定的评估。开发的监督元模型结合LLM评估、文本嵌入和语言相似性特征,准确匹配诊断。结果显示AI模型可实现超越人类专家的一致性,但专家高变异性凸显需考虑多视角的标准化评估框架。

测试显示DeepSeek-V3等模型表现良好,有时匹配或超越专家共识。但顶级模型间差异较小,临床应用需谨慎选择。建议未来工作探索更清晰的诊断指南或共识方法减少专家分歧,改进医疗AI评估。强调AI诊断应评估准确性和一致性,以及与专家意见的对齐。我们的方法为这一挑战提供实用解决方案,支持更好整合医疗AI。未来应扩展到更多样化医学场景,进一步改进评估方法。

【全文结束】

声明:本文仅代表作者观点,不代表本站立场。

本页内容撰写过程部分涉及AI生成(包括素材的搜集与翻译),请注意甄别。

7日热榜