摘要
构建稳健的医疗机器学习系统需要利用临床数据中固有结构的预训练策略。我们提出了多视角掩码自编码器(MVMAE),这是一种自监督框架,利用放射学检查的自然多视角组织来学习视角不变且与疾病相关的表征。MVMAE结合了掩码图像重建与跨视角对齐,将临床冗余转化为强大的自监督信号。我们进一步将这种方法扩展为MVMAE-V2T,它将放射学报告作为辅助的基于文本的学习信号,以增强语义基础,同时保持完全基于视觉的推理。在MIMIC-CXR、CheXpert和PadChest三个大型公共数据集上的下游疾病分类任务中进行评估,MVMAE consistently outperforms supervised and vision–language baselines。此外,MVMAE-V2T提供了额外的收益,特别是在标签有限的情况下,结构化文本监督最为有益。这些结果共同确立了结构和文本监督作为可扩展、临床基础医学基础模型的互补路径的重要性。
1 引言
基础模型已经加速了人工智能在医学(moor2023foundation; pai2024foundation)和病理学(chen2024towards; lu2024visual)领域的进展。然而,医疗保健中的数据现实与支撑通用视觉-语言系统的互联网规模语料库截然不同。在放射学领域,MIMIC-CXR(johnson_mimic-cxr-jpg-chest_2019)、CheXpert(chambon2024chexpert)、Chest X-ray(wang2017chestx)和PadChest(bustos2020padchest)等胸部X光数据集包含数十万(而非数十亿)项检查,标签获取成本高且通常存在噪声(gundel2021robust),以及机构采集协议差异巨大(hassanzadeh_clinical_2018; chambon2024chexpert)。因此,纯监督流程难以保持良好性能,而通用视觉-语言预训练可能表现欠佳或需要高昂的适应成本以满足领域基准(chaves_towards_2024)。
自监督学习(SSL)通过减少对专家标签的依赖提供了一条前进路径(radford2021learning; tiu_expert-level_2022; azizi_big_2021)。与自然图像相比,放射图像的数据生成过程定义了清晰的结构:一项或多项扫描以及相应的放射学报告构成一项放射学检查。然而,许多医疗SSL方法仍将同一检查的X光片视为独立图像(ghesu2022contrastive; tiu2022expert),忽视了临床检查的结构。
实际上,放射学检查是有结构的:它们通常包含多个图像投影(例如,正面或侧面)、重复采集以及相应的报告。这种结构编码了视图间强烈的几何(解剖和生理)和语义一致性,放射科医生在解释时经常利用这一点。先前的工作已利用此类结构的部分内容,显示在稳健性和标签效率方面的改进(mo_multimed_2024; pellegrini_radialog_2025; chen_chexagent_2024)。然而,仅基于重建的目标是视图特定的,忽略了跨视图对应关系(xiao_delving_2023);对比目标忽略了重建质量(nguyen2022self);而视觉-语言方法可能依赖于报告的可用性和质量,强调抽象的、基于标签的语义,而非图像内详细的空域或视觉对应关系(pellegrini_radialog_2025; chen_chexagent_2024)。胸部X光的可扩展SSL预训练方案应同时利用局部视觉细节和检查级别的连贯性。
基于此直觉,我们提出了多视角掩码自编码器(MVMAE),这是一个以检查为中心的预训练框架,通过耦合掩码重建与跨视图对齐来学习视角不变的表征,无需依赖外部监督,如图1所示。MVMAE将同一检查中获取的不同图像投影视为自然的正样本对,并联合优化:(i)每个视图的掩码图像建模目标,以捕获患者检查期间获取的多个X光视图的互补信息;以及(ii)检查级别的对齐目标,以规范同一医学检查中不同投影的嵌入。这将临床冗余转化为自监督。反映临床实践,我们采用检查级别的组织和统一策略,保留单视图和多视图检查,纳入不确定视图,并在一项检查内聚合多个投影。这种方法避免了过度计数,保留了放射科医生实际使用的内部结构,并允许我们探究在测试时可用投影数量如何影响性能。尽管我们专注于胸部X光,但相同的策略可以扩展到任何提供重复或互补扫描的生命科学领域,如纵向磁共振成像(MRI)或多序列计算机断层扫描(CT)。
此外,没有一个公开数据集能完全捕捉胸部X光的变异性(zech2018variable)。MIMIC-CXR、CheXpert、Chest X-Ray和PadChest等集合之间的机构协议、患者人口统计和采集设备存在显著差异。因此,在所有四个数据集上联合预训练至关重要,使模型能够内化临床成像固有的变异性,并产生能有效跨机构迁移的表征。
为了在报告可用时进一步注入语义基础,我们引入了MVMAE-V2T,它通过轻量级的视觉到文本目标增强MVMAE。报告仅在预训练期间作为图像目标之外的辅助信号使用;在测试时,模型仍是一个仅视觉的编码器。这种设计与基于图像-文本对齐或仅文本生成目标的CLIP风格(zhang2025multimodal)或指令调谐的放射学视觉-语言模型(VLMs)(chen_chexagent_2024; deperrois2025radvlm)形成对比。
贡献
我们的工作沿着四个主要方向推进了放射学的多模态自监督学习:(i)我们引入了MVMAE,这是首个利用医疗结构的放射学多视角掩码自编码器,通过结合掩码重建与跨视图对齐,产生视角不变但细节丰富的视觉表征,并始终优于监督和视觉-语言基线,同时提供更好的校准预测。(ii)我们将此框架扩展为MVMAE-V2T,在预训练期间将放射学报告作为辅助监督。额外的视觉到文本信号增强了语义基础,并在标签有限的情况下提供了明显收益,且推理时无需文本。(iii)我们采用临床现实的、以检查为中心的评估策略,反映真实世界的诊断实践,并允许分析跨视图一致性如何随投影数量变化。(iv)我们将MIMIC-CXR、CheXpert Plus和PadChest三个大型公共数据集整合到一个统一基准中,展示了跨机构的一致改进,并分析了我们模型的每标签行为。这些结果共同确立了MVMAE和MVMAE-V2T作为可扩展、结构感知的医学基础模型的简单而有效的蓝图。
2 相关工作
医学成像的自监督预训练。
SSL已成为医学图像表示学习的关键策略,在医学图像中专家注释成本高且标签分布不平衡。早期工作将通用预文本任务(如上下文恢复或旋转预测(zhuang2019self))适应于放射图像,随后是对比框架如SimCLR(chen_simple_2020)和MoCo(he2020momentum),这些框架鼓励对数据增强的不变性。应用于胸部X光,这些方法证明了像MIMIC-CXR(johnson_mimic-cxr_2019)这样的大型无标签数据集可以产生强大的特征编码器,可迁移至下游分类和定位任务(azizi_big_2021; tiu_expert-level_2022)。然而,这些方法通常将每张图像视为独立实例,忽视了放射学检查的内在关系结构,如共同获取的正面和侧面投影。因此,尽管它们在学习一般视觉语义方面取得成功,但未能利用表征放射学数据的检查内连贯性和解剖一致性。
掩码和基于重建的预训练。
掩码图像建模最近已成为视觉自监督中的主导范式。掩码自编码器(MAE)(he_masked_2021)通过重建输入图像的掩码块来学习密集表征,已为放射学提出了特定领域的适应方案(xiao_delving_2023; mo_multimed_2024)。这些研究表明,最佳掩码比率和重建目标与自然图像设置不同,微妙的医学纹理需要仔细调整预文本目标。虽然MAE捕获细粒度的图像统计和低级解剖,但其重建目标仍是视图特定的且仅限于图像内部。在CXR的背景下,它们忽略了一个丰富的信息源:同一检查的正面和侧面视图之间的几何对应关系。实际上,每项放射学检查提供了相同解剖结构在互补投影下的配对观察。然而,现有的MAE预训练工作将它们视为不相关的样本,放弃了这种强大的隐式监督形式。
多模态和视觉-语言预训练。
配对的图像-报告数据集使放射图像和文本之间的跨模态学习成为可能。VLMs,如MedCLIP、CheXagent和RaDialog(boecking2022making; pellegrini_radialog_2025; chen_chexagent_2024; deperrois2025radvlm),通过对比或生成目标对齐视觉和文本表征,产生可迁移的多模态特征。然而,这些方法严重依赖于报告的可用性和质量,这些在机构间各不相同,且它们提供的监督是语义的而非几何的。换句话说,文本描述看到的内容,但不描述同一患者的不同放射视图如何在解剖上相互关联。
跨视图和纵向预训练。
少数研究开始探索放射学数据中的结构冗余。多视图或基于对应关系的对比方法(nguyen2022self; zhou2023multi; zeng2023learning; agostini2025leveraging)利用投影或时间点之间的空间和解剖一致性,提高表征稳健性和患者级泛化能力。然而,这些工作仍限于对比配对或简单的视图平均;它们尚未将这些约束与基于重建的学习集成,也未在规模上利用模态之间的联合信息流。
总之,先前的医疗预训练方法已成功将自监督和多模态目标适应于放射学数据,但很大程度上抽象了临床成像检查的结构性质。大多数将X光片视为独立图像,忽视了每项检查本身将多个视图、重复采集和文本上下文耦合为语义和几何上连贯的整体。
我们的工作基于这一观察,通过明确利用胸部X光的结构(配对的正面-侧面投影)作为自监督信号。与先前的视图无关重建或依赖报告的对齐相比,我们的方法耦合掩码重建与跨视图正则化以及视觉到文本重建,产生既保持细节又视角不变的表征。这种方法朝着不仅从更多数据中学习,而且从数据结构本身学习的领域适应基础模型迈进。
3 数据集和预处理
MIMIC-CXR、CheXpert、PadChest和Chest X-ray作为多模态资源。
我们在四个大型公开可用的胸部X光档案上进行实验:MIMIC-CXR(johnson_mimic-cxr_2019)、CheXpert Plus(chambon2024chexpert)、PadChest(bustos2020padchest)和Chest X-ray(wang2017chestx)。MIMIC-CXR包含来自227,000项检查的377,000多张图像,与65,000名患者相关联。CheXpert Plus是原始CheXpert数据集的扩展,包含更可靠的标签、报告和额外元数据,由来自65,000名患者的224,000多张图像组成。PadChest包括大约110,000项检查,包含约160,000张图像,来自约67,000名患者。有关数据集的详细概述,请参见附录A中的表4。所有数据集都包含在重症监护环境中获取的常规胸部X光和报告。
检查结构。
这三个语料库在检查级别组织,其中每项检查将与单一放射学报告相关联的一个或多个放射投影分组在一起。由于患者定位、采集设备和临床条件的差异,图像质量在数据集间差异很大,为稳健预训练提供了现实的测试平台。最后,Chest X-ray数据集包含来自约31,000名患者的约109,000张正面视图图像。由于原始文本报告未公开发布且标签本体与其他数据集不同,我们仅将其用于无监督预训练,而非下游分类或评估。这种设置扩大了预训练期间的视觉多样性,同时保持了评估数据集上的标签一致性。
我们将检查(患者就诊期间获取的投影完整集)视为分析的基本单位。投影分为两大类:正面(后-前PA或前-后AP)和侧面(左侧面LL或通用侧面),部分标记为未知,即元数据或低频视图类别中未定义。为捕捉其多视图性质,我们采用统一的FLU(正面-侧面-未知)策略,包括包含至少一个有效投影的所有检查,将每个可用视图索引为v∈{f,l,u}。形式上,每个数据集产生一个集合𝐗(i)={𝐱v(i)}v∈𝒱(i),其中𝒱(i)={v1,…,vn(i)}表示检查i中存在的视图类型集合,n(i)≥1为每项检查的视图数量(i)。请注意,我们允许同一视图类型v的多个实例。这确保了包容性:保留单视图检查,多视图检查贡献所有可用投影,不确定的视图类型被纳入而非丢弃。当可用时,报告也与每项检查相关联,并用于推导最终疾病预测标签。图2展示了一个研究单元的组成部分示例,包括其多个投影、相应报告和最终标签集。有关数据集分布、插图和研究性质的扩展信息可在附录A中找到。
预处理流程和数据分割。
所有放射图像首先调整为256×256,然后中心裁剪并各向同性调整为224×224。强度按照xiao_delving_2023中的程序重新缩放并标准化为[0,1]。对于MIMIC-CXR和CheXpert,检查级标签继承自CheXpert标记器(irvin_chexpert_2019),涵盖14个诊断类别。按照haque_effect_2023,三个非阳性状态("阴性"、"未提及"、"不确定")合并为单个0类,仅将明确阳性视为1。在MIMIC-CXR和CheXpert中,我们使用官方训练、验证和测试分割。由于PadChest和Chest X-ray未提供预定义分割,我们手动创建,按患者分层以防止数据泄露,并获得与MIMIC-CXR和CheXpert相当的数据分割比例。对于PadChest,我们将97%的检查分配给训练,并将剩余的3%平均分配给验证和测试。对于Chest X-ray,我们合并原始训练和验证集,并将98%用于训练,2%用于验证,同时保持官方测试集不变。
对于PadChest,需要额外的预处理。该数据集最初包含193个标签,涵盖放射学发现、鉴别诊断和解剖位置。为确保可比性,我们将这些标签映射到CheXpert标记器定义的相同14类别空间。此映射在Claude Code 2.0.35(anthropic2025claude)的协助下自动构建,以识别PadChest标签与CheXpert标签集之间最接近且临床上最一致的对应关系。这种协调使所有三个数据集上的统一评估成为可能。附录A中提供了有关数据集和预处理的更多细节,以及标签和其他相关信息的统计。
4 方法
我们研究了跨多种预训练方案的胸部X射线表示学习,重点关注多视角掩码自编码器(MVMAE),它结合了掩码重建与跨视图对齐损失以利用检查级结构,并可通过文本监督扩展,形成MVMAE-V2T。我们方法的概述如图1所示。为评估目的,我们研究了MVMAE的简化变体和在更广泛医疗数据上预训练的最先进的视觉-语言模型。
4.1 MVMAE:多视角MAE
MAEs(he_masked_2021)是一种自监督学习方法,旨在通过重建输入的缺失部分来学习高质量表示。MAEs随机掩码输入数据的大部分,并训练编码器-解码器架构从可见子集恢复掩码内容。在本工作中,我们假设编码器和解码器为视觉变换器(ViTs,dosovitskiy_image_2020)。
M(⋅)将随机掩码应用于输入,其中α是掩码比率,定义了从输入中移除的块数。我们将输入定义为块标记序列,其中每个标记对应于固定大小的图像块,线性嵌入为向量表示。我们将未掩码输入标记定义为𝒙vvis(i)=M(𝒙v(i))。
设𝒯vis⊆{1,…,T}表示应用M(⋅)后对应于可见(未掩码)标记的索引集合。未掩码标记的数量因此由Tvis=|𝒯vis|=(1−α)⋅T给出,其中T是输入标记的总数。编码器fθ仅处理未掩码输入标记𝒙vvis(i)产生潜在表示𝒛v(i)=fθ(𝒙vvis(i))。这些传递给轻量级解码器gϕ,后者添加掩码标记占位符并尝试重建原始输入𝒙v,包括掩码部分。模型通过最小化仅在掩码位置上的重建损失ℒRec进行训练:
ℒRec(i)=1α1|𝒱(i)|∑v∈𝒱(i)∑t∉𝒯vis‖𝒙vt(i)−𝒙^vt(i)‖22,其中𝒙^v(i)=gϕ(𝒛v(i)).
这里,𝐱vt(i)表示原始输入视图v在掩码位置t,𝒙^vt(i)表示同一输入位置t的重建。请注意,重建损失仅在掩码输入块上计算,但我们仅馈送可见或未掩码块𝒙vvis(i)=M(𝒙v(i))。更多细节,请参阅he_masked_2021。
除了重建损失外,我们引入了一个检查级对齐项,以鼓励同一检查中所有视图的表示一致(agostini_weakly-supervised_2024; sutter_unity_2024)。设𝒱(i)={v1,…,vn(i)}表示检查i的可用视图集合,𝒛v(i)为视图v的编码器输出(仅CLS和可见标记)。我们将对齐目标定义为所有有序视图对之间编码器输出的平均成对距离:
ℒAlign(i)=11−α1|𝒫(i)|∑(u,v)∈𝒫(i)∑t∈𝒯visdMSE(𝒛ut(i),𝒛vt(i)),
其中𝒫(i)={(u,v)∣u,v∈𝒱(i),u≠v},dMSE(⋅,⋅)是均方误差(MSE)。重要的是,对齐仅在可见编码器标记上计算;掩码标记稍后在解码器中引入。
MVMAE在检查i上的完整目标为:
ℒ(i)=ℒRec(i)+β⋅ℒAlign(i),
其中β是重建和对齐损失之间的权重。我们还应用了beta退火计划,逐渐将对齐权重β从零增加到目标值,以稳定早期学习阶段。
如前一节所述,临床检查可能包含多个放射投影,包括同一视图类型的重复采集(例如,两个正面视图或正面-侧面-正面序列)。为使编码器感知投影类型而不为每个视图实例分配单独的头,我们为每个投影类别m∈{frontal,lateral,unknown}引入可学习的模态嵌入𝐞m∈ℝD。因此,所有正面视图的出现共享相同的嵌入𝐞frontal,即使在同一检查中出现多个正面图像。
设𝐱v(i)表示检查i的第v个视图,关联的模态索引为m(v)。在块化后,我们添加常规位置编码,并另外将每个可见块标记按相应的模态嵌入移动:
𝐡t=𝐩tpos+𝐞m(v),t∈𝒯vis,
其中𝐩tpos是常规ViT位置嵌入。相同的𝐞m(v)也添加到解码器标记中,确保重建仍以投影类型为条件。此设计类似于语言模型中的段落嵌入(devlin2019bert),允许模型表示投影特定的采集偏差,同时在所有视图上保持共享编码器。实际上,我们使用M=3个模态嵌入,并联合学习表{𝐞m}m=1M与其他所有参数。
4.2 MVMAE-V2T:文本作为额外学习信号
除了纯图像预训练外,我们研究将放射学报告作为辅助监督信号的使用,而非输入模态,并引入MVMAE-视觉到文本(MVMAE-V2T)。每份报告与其相应的影像检查配对,仅用于在训练期间指导视觉表示学习。文本在推理时间或下游评估期间从不作为输入使用,确保与纯视觉模型的公平比较。为整合这种弱多模态监督,我们采用受CapPa框架(tschannen2023image)启发的标题式目标。具体来说,对于检查i的每个视图𝒙v(i)及其检查报告𝒓(i)={r1(i),…,rK(i)(i)},其中K(i)个标记,我们通过变压器解码器hψ扩展MVMAE,该解码器在自回归方式下通过交叉注意力预测每个报告标记rk(i),条件是所有先前报告标记r<k(i)以及当前视图未掩码视觉嵌入的编码𝒛v(i)。为训练hψ,我们应用交叉熵损失如下:
ℒCE(i)=1|𝒱(i)|1K(i)∑v∈𝒱(i)∑k=1K(i)ℓce(𝒓^vk(i);rk(i)),
其中𝒓^vk(i)=hψ(r<k(i),𝒛v(i))∈ℝ|𝒲|是给定先前标记r<k(i)和未掩码视图嵌入𝒛v(i)的第k个标记的logits,𝒲是标记词汇表,r0(i)是填充标记,
ℓce(𝒙;y)=−logexp(xy)∑w∈𝒲exp(xw).
我们将此额外损失添加到标准MVMAE损失之上,并使用以下方式训练MVMAE-V2T:
ℒV2T(i)=ℒRec(i)+β⋅ℒAlign(i)+ℒCE(i).
这种联合优化确保来自多个投影的互补信息一致地贡献于文本生成预文本,强化了临床数据中固有的检查级结构。我们的方法仅将放射学报告作为结构化、领域特定的监督,以引导视觉编码器朝向疾病相关语义,无需依赖文本进行下游推理或预测。
5 实验
我们的目标是研究MVMAE的多视图预训练如何在不同约束下影响下游疾病分类。这些设置反映了现实的临床条件,其中注释稀缺,成像协议在机构间不同,且检查可能包含可变数量的视图。我们研究四个互补问题:
(i) 当模型在下游分类任务上完全微调时,预训练编码器学习的表示有多有效? 特别是,我们评估利用预训练中的多视图和多模态数据结构是否导致可测量的改进。我们将我们的方法与监督基线、结构无关预训练和最近的医疗VLMs进行比较。
(ii) MVMAE表示在有限监督下的稳健性如何? 为模拟注释稀缺性,我们在逐渐增大的标记子集上微调预训练编码器,并与基线进行比较,量化标签效率。
(iii) 预训练中利用结构是否有助于模型校准? 我们评估多视图预训练是否与基线相比产生更好的校准预测。
(iv) 性能如何随每项检查的视图数量变化? 我们对评估期间可用的最大视图数量进行消融,以测试当推理时仅提供单视图时多视图预训练的稳健性,以及当提供多个视图时的变化。为确保受控比较,我们将此分析限制为恰好包含两个可用视图的检查。
综合而言,这些实验评估了性能、标签效率和对检查结构的敏感性。
5.1 基准模型:从单模态变体到基础模型
为使我们的结果上下文化,我们将MVMAE和MVMAE-V2T与代表不同训练方案和领域专业化水平的预训练编码器谱系进行基准测试。这些基线范围从我们自己方法的纯单模态变体或不强制跨视图正则化,到在大规模生物医学语料库或胸部X射线特定数据上训练的最先进的视觉-语言模型。这种进展使我们能够测试三个假设:(i)是否多视图正则化对于超越单模态掩码重建是必要的,(ii)大型但非X射线特定的生物医学预训练是否带来优势,以及(iii)我们的方法与专门为胸部X射线解释优化的基础模型相比如何。评估的基准如下。
监督。
一个完全监督的基线,直接在多标签分类任务上端到端训练骨干,无需任何预训练、掩码或对齐。这代表在许多放射学基准中使用的常规方法,作为评估我们自监督预训练带来多少收益的控制。使用与MVMAE相同的视觉编码器架构以确保公平和受控比较。
独立。
此消融通过设置β=0移除跨视图对齐正则化器。检查内的每个投影独立重建,未明确鼓励正面、侧面或未知视图之间的共享潜在表示。此方法测试性能增益是否源于对齐机制本身,或仅来自掩码重建。使用与MVMAE相同的视觉编码器架构以确保公平和受控比较。
BiomedCLIP。
zhang2025multimodal提出了一种大规模生物医学VLM。它遵循CLIP(radford2021learning)框架,在PMC-15M(zhang2025multimodal)上联合训练基于ViT的图像编码器和PubMedBERT(gu2021domain)文本编码器,该数据集包含从PubMed Central挖掘的超过1500万生物医学图像-标题对。这使模型能够在包括放射学、病理学、显微镜和插图在内的广泛生物医学模态中泛化。与先前的医疗CLIP变体相比,它受益于更大更多样的预训练语料库、更高的输入分辨率和领域特定适应。
CheXagent。
chen_chexagent_2024引入了用于胸部X射线的VLM。它在CheXinstruct上训练,这是一个由32个公共来源整理的850万指令-图像-响应三元组的大规模数据集,涵盖35个不同的胸部X射线解释任务。该模型结合了基于SigLIP的图像编码器和仅解码器语言模型。此设计使其能够执行广泛的任务,包括视图分类、疾病识别、时间推理、VQA、短语定位或放射学报告生成。为公平起见,我们仅评估CheXagent视觉编码器,而非完整的VLM,后者本身在集成到仅解码器架构之前已通过自监督目标预训练。
5.2 实现细节
对于下游分类,我们使用后期融合集成,对MVMAE和基线的单模态单视图模型的预测分数进行平均。训练单个多标签分类器以预测十四个诊断标签。分类器在合并MIMIC-CXR、CheXpert和PadChest检查获得的组合数据集上训练。我们在组合验证集和每个单独数据集上报告性能。此设置启用统一评估,同时仍突出跨机构泛化。所有模型均使用自监督视觉设置中常见的数据增强进行训练,包括随机调整大小裁剪、水平翻转和颜色抖动,以提高表示质量。
我们的MVMAE骨干是ViT-Base(dosovitskiy_image_2020),具有12层、12个注意力头和768维隐藏嵌入,在16×16图像块上运行。在预训练期间,我们应用90%的高掩码比率。解码器是在重建期间仅附加的轻量级变换器。所有实验均在配备每GPU 40GB内存的NVIDIA Grace Hopper Superchips的内部集群上进行。
5.3 结果
跨数据集的总体性能。
第一个实验评估了在完整标记组合数据集上训练时,与第5.1节中描述的基线方法相比,所提出的MVMAE的下游分类性能。MVMAE编码器在组合数据上端到端微调,相同的微调程序应用于BiomedCLIP和独立基线,以在相同条件下实现直接比较。相比之下,CheXagent在仅探针设置下评估,其中仅训练分类头,而预训练编码器保持冻结,因为其编码器已在大规模预训练期间针对胸部X射线解释进行了优化。
模型选择使用组合评估集上十四个标签的宏平均AUROC进行。结果如表1和表2所示,表明MVMAE总体上实现了最高性能,具有跨机构的强泛化能力,并优于监督和VLM基线。
为更好地理解跨不同条件的性能分布,图3可视化了每个数据集中每个标签实现的AUROC。雷达图突出了疾病类别和数据集间的实质性变化,反映了标签流行度和某些发现(如"Pneumonia"或"Pleural Other")的相对难度的差异。在我们的发现中,对应频繁且视觉定位条件的标签产生更高分数,而对应罕见或文本模糊条件的标签仍然具有挑战性。我们还观察到,特定标签的相对难度在数据集和模型间变化,表明机构偏差、标注实践和采集协议如何影响模型按病理泛化。在图3中,我们展示了在组合数据集上跨所有数据集实现最佳总体分类性能的MVMAE变体,以及最强基线(CheXagent),并在附录B中包含其余基线。
值得注意的是,即使在CheXpert中,CheXagent的AUROC略高,MVMAE在几个单独标签(如肺炎、肺不张和骨折)上实现了相当或更好的结果。为隔离标签级性能,我们还报告了使用每标签模型选择的结果,选择最大化每个标签宏平均AUROC的检查点(图3,右)。我们注意到CheXpert中每标签变化的部分源于其官方验证分割的强烈不平衡。某些条件(如肺炎和胸膜其他)在此子集中仅由单个阳性检查表示,当使用联合模型选择时人为降低AUROC值。当模型选择改为对每个标签单独进行时,如图3 b和d所示,这些差异消失,确认观察到的差距是由于数据稀缺而非模型限制。总体而言,雷达图进一步揭示了MVMAE在困难条件上匹配或超过CheXagent。
标签效率。
在图11中,我们评估了在有限监督和标签可用性下表示如何有效迁移。模型在标记检查的递增子集上微调(|L|∈{5K,10K,20K,50K,100K})。此实验评估每种方法如何有效利用增加的监督,表明性能如何随可用标签快速扩展。请注意,标记子集仅用于下游评估,即仅探针或监督微调,而所有预训练(包括MVMAE、MVMAE-V2T和基线)严格保持自监督且所有样本。由于我们的重点是标签高效的迁移,我们将基线限制为预训练期间未使用标签的方法,从而排除CheXagent。我们评估两种设置:完全微调和线性探针。
在线性探针下,MVMAE始终优于所有基线,展示了更线性可分离的表示和更优的标签效率。微调时,MVMAE-V2T进一步突出了整合报告的好处,特别是在低标签制度下,尽管随着更多标记数据可用,此优势减弱。实际上,实现约80% AUROC需要MVMAE变体5k标记样本,独立基线10k(2×更多),监督基线50k(10×更多)。这些结果表明MVMAE产生标签高效的表示,而MVMAE-V2T在标签稀缺条件下微调时提供额外收益。
校准。
我们使用Brier分数评估概率校准,该分数衡量预测概率与结果之间的均方差距,即越低越好。在具有20K标记样本和匹配骨干的线性探针下,MVMAE在所有三个数据集上获得最低Brier分数,产生最佳组合结果,如表3所示。与独立和BiomedCLIP相比的改进虽然适度但一致,表明多视图预训练不仅提高区分能力,还产生跨数据集更好校准的置信度估计。
每项检查的视图数量影响。
我们进一步研究每项检查可用投影数量如何影响模型性能。为确保在评估添加额外视图效果时的公平比较,我们将分析限制为恰好包含两个视图的检查,并仅在这些检查上微调模型。我们将所提出的MVMAE与其独立变体(在没有跨视图对齐项的情况下训练)进行比较,同时改变评估期间包含的视图数量,从单视图到双视图配置。如图5所示,报告MVMAE与独立的ΔAUROC在三个随机种子上的平均值,计算为MVMAE的AUROC减去独立的;MVMAE在两种设置下始终表现出优于独立变体的性能优势。在组合数据集上,单视图评估下的改进更为明显,表明多视图预训练即使仅提供一个视图也能提供可迁移的好处。CheXpert和PadChest也观察到类似趋势,而对于MIMIC-CXR,改进仅在双视图下明显。
6 讨论
我们的发现突显了利用医学成像数据固有结构进行表示学习的重要性。与从头训练或使用独立单视图目标相比,多视图预训练始终改进下游分类,证实即使没有显式标签或文本,投影间的结构一致性也提供了强大的自监督信号。
在预训练期间利用检查级结构被证明比仅在监督阶段强制一致性更有效。通过软正则化对齐视图的模型比仅在推理时组合预测的模型学习更丰富、更可迁移的表示。
MVMAE还展示了卓越的标签效率,以显著更少的注释实现高性能,这是临床领域中专家标注成本高且通常不完整的至关重要的属性。与BiomedCLIP和CheXagent等大规模视觉-语言模型相比,MVMAE在预训练期间不依赖文本的情况下实现了具有竞争力或更好的结果。在此基础上,MVMAE-V2T通过将放射学报告作为辅助监督信号扩展了框架,表明当可用时,文本可以进一步增强语义基础并提高性能,特别是在低标签制度下,而不会在推理中引入文本依赖性。
我们还发现,MVMAE产生更好校准的预测,表明跨视图正则化鼓励更可靠的置信度估计以及改进的区分能力。最后,跨多个数据集的训练和评估揭示了多视图结构学习随数据多样性扩展并支持跨机构泛化。
总体而言,这些结果突显了将预训练目标和评估协议与临床数据的现实组织对齐的重要性。除了胸部X光外,此框架—包括MVMAE和MVMAE-V2T—自然扩展到时间、多序列或多模态检查,为建立在结构和语义监督基础上的临床基础模型提供了可扩展的路径。
7 结论
我们引入了MVMAE,这是首个利用临床成像数据检查级结构的多视角掩码自编码器,无需在预训练期间依赖文本输入即可学习稳健且可迁移的表示。通过结合掩码重建与跨视图对齐,MVMAE有效利用了放射学检查的固有多视图性质,在MIMIC-CXR、CheXpert和PadChest上实现了性能和标签效率的一致改进。在此基础上,我们进一步提出了MVMAE-V2T,它将放射学报告作为辅助基于文本的学习信号。此扩展增强了语义基础,并在有限监督下提升性能,同时保持完全基于视觉的推理。总体而言,这些结果确立了表示学习在医学成像中的可扩展框架,利用了临床数据的固有组织。相同原则自然扩展到其他结构化模态,如时间随访或多序列成像,为建立在结构和语义连贯性而非注释规模基础上的临床基础模型铺平道路。更广泛地说,该框架超越医学,适用于任何结构化关系在视图或模态之间可以作为自监督以学习稳健且可迁移表示的多模态领域。
【全文结束】

