早期准确诊断阿尔茨海默病对有效临床干预至关重要,特别是将其与轻度认知障碍区分开来,后者是一种由细微结构变化标记的前驱阶段。在本研究中,我们提出了一种混合深度学习集成框架,用于使用结构磁共振成像对阿尔茨海默病进行分类。灰质和白质切片被用作三个预训练卷积神经网络(ResNet50、NASNet和MobileNet)的输入,每个网络都通过端到端过程进行微调。为进一步提高性能,我们整合了堆叠集成学习策略,采用元学习器和加权平均方法,以最优方式组合基础模型。在阿尔茨海默病神经影像倡议(ADNI)数据集上评估,所提出的方法在阿尔茨海默病与轻度认知障碍区分上达到99.21%的最先进准确率,在轻度认知障碍与正常对照区分上达到91.02%的准确率,优于传统的迁移学习和基础集成方法。为提高基于图像诊断的可解释性,我们整合了通过梯度加权类激活的可解释人工智能技术,该技术生成热力图和归因图,突出显示灰质和白质切片中的关键区域,揭示影响模型决策的结构生物标志物。这些结果突显了该框架在神经退行性疾病诊断中提供稳健且可扩展的临床决策支持的潜力。
1 引言
阿尔茨海默病(AD)是一种进行性神经退行性疾病,是全球痴呆最常见的原因,影响数百万老年人,并对全球医疗保健系统造成巨大的社会经济负担。阿尔茨海默病是一种逐渐损害记忆、推理和执行日常活动能力的退行性神经系统疾病。它是痴呆的主要原因,与正常衰老不同,与大脑中异常淀粉样斑块和tau蛋白缠结的积累有关,这些物质会损害并最终破坏神经细胞。常见症状包括健忘、定向障碍、解决问题或计划能力下降,以及情绪或个性的变化,随着疾病进展,所有这些症状都会加剧。虽然目前尚无治愈方法,但现有治疗可能缓解症状,某些生活方式调整可提供额外支持。随着全球人口老龄化,阿尔茨海默病的早期检测已成为研究的关键领域,以实现及时干预并延缓疾病进展。尽管在生物标志物发现方面取得了显著进展,但由于其复杂病理和与其他认知障碍重叠的症状,阿尔茨海默病的临床诊断仍然具有挑战性。
阿尔茨海默病的描述性流行病学数据表明,患病率和发病率随着年龄增长而稳定上升,在老年人中达到峰值,女性受影响比男性更频繁。从人口统计学角度看,随着人口持续老龄化,阿尔茨海默病成为日益严重的公共卫生问题,对疾病和死亡率贡献巨大。尽管存在地区差异,但该疾病影响全球社区,给护理人员和医疗基础设施造成相当大的压力。
传统上,阿尔茨海默病诊断依赖于认知测试,如简易精神状态检查(MMSE)、临床痴呆评定(CDR),以及侵入性测试,如脑脊液生物标志物检测和正电子发射断层扫描(PET)。虽然准确,但这些程序通常昂贵、具有侵入性,并且在初级保健环境中不可用。因此,基于磁共振成像(MRI)的分析因其非侵入性和揭示脑部结构变化(如海马萎缩)的能力而受到关注,这些变化是阿尔茨海默病的指示。
阿尔茨海默病可通过临床、认知和生物评估的组合来识别。医生通常从详细的医疗和家族史开始,评估症状进展,重点关注记忆衰退和日常生活功能困难。认知筛查工具,如MMSE或蒙特利尔认知评估(MoCA),常用于测量记忆、语言和推理方面的障碍。神经和体格检查有助于排除认知衰退的其他潜在原因,而神经影像技术如MRI或CT扫描可以显示脑萎缩并排除其他状况。高级影像学,如PET扫描,可进一步检测阿尔茨海默病特征的淀粉样斑块或tau蛋白缠结。此外,脑脊液或血液的生物标志物分析提供了异常淀粉样蛋白和tau蛋白水平的证据,在罕见的遗传性病例中,基因检测可用于确认早发性疾病。这些方法共同促成了阿尔茨海默病全面可靠的诊断。
在过去十年中,深度学习已成为医学图像分析的变革性方法。特别是卷积神经网络在检测MRI扫描中阿尔茨海默病分类的模式方面展示了显著成功。与传统机器学习方法相比,深度学习技术消除了手工制作特征的需要,而是直接从原始图像数据中学习层次表示。这些模型可以捕捉与阿尔茨海默病不同阶段(包括正常对照、轻度认知障碍和阿尔茨海默病本身)相关的细微结构变化。
尽管有这些有希望的发展,但几个挑战仍然存在。许多基于CNN的研究由于样本量小或单一来源数据集而限制了泛化能力。此外,独立模型在应用于具有多样化成像协议和患者人口统计学的真实临床环境时,准确性往往降低。为解决这些限制,已经探索了结合多个模型的集成方法,利用模型多样性来提高稳健性和性能。
本论文的主要贡献总结如下:
- 我们提出了一种新的阿尔茨海默病(AD)分类集成诊断流程,将迁移学习、加权平均和堆叠泛化整合到一个统一框架中。
- 我们的方法利用预训练架构(包括ResNet50、NASNet和MobileNet)的互补优势,增强特征表示和稳健性。
- 采用元学习器融合多个基础模型的预测,从而提高准确性和在多样化患者群体中的泛化能力。
- 我们在ADNI数据集上严格评估所提出的方法,确保临床相关性和与已建立诊断基准的可比性。
- 与现有基线相比,我们的方法表现优异,特别是在区分早期AD和MCI方面,这是临床实践中的挑战性诊断边界。
- 我们通过Grad-CAM覆盖图整合可解释性,表明模型一致关注与AD进展相关的临床相关神经解剖区域。
- 通过将多种架构与决策融合策略集成,所提出的流程提供了具有强大真实临床部署潜力的稳健且可扩展的诊断工具。
2 相关工作
几项研究和近期研究提出了混合和集成深度学习方法,以提高阿尔茨海默病和轻度认知障碍疾病分类的准确性和泛化能力。例如,Mmadumbu等人开发了一种混合系统,将ResNet50和MobileNetV2集成用于基于MRI的分类,实现了超过96%的准确率。其他方法将CNN与长短期记忆(LSTM)网络结合进行多模态分析,同时整合成像和临床数据。堆叠泛化的引入(其中基础学习者的输出被馈送到元分类器)进一步完善了决策边界,在区分MCI和AD方面展示了提高的灵敏度。Bossa和Sahli提出了一种基于微分方程的疾病进展模型,模拟个体生物标志物轨迹和临床结果。该系统考虑了AD进展中观察到的异质性,并在预测MCI向AD转化方面显示出前景。同样,Cheung等人探索了视网膜成像作为MRI的替代方案,将深度学习应用于视网膜照片,实现超过90%的分类准确率。这些新型模态可能补充神经影像学,并为社区筛查提供侵入性更小的替代方案。
在Junior等人的研究中,ADNI数据库MRI扫描被分为三组:AD、MCI和正常认知。他们的模型实现了85%的准确率,展示了基于XAI的深度学习在透明、临床相关的AD诊断中的潜力,其中局部LIME和Grad-CAM用于突出预测中重要的脑区,特别是MCI中海马附近的变化。Anzum等人提出了一种将RNA文本数据与脑MRI图像结合的方法,以提高诊断精度,重点是通过结合Transformer模型和高级计算机视觉算法来改善AD检测。这与使用MRI、CT或PET的传统成像方法形成对比,这些方法实现80-90%的准确率。Viswan等人对使用XAI进行AD检测研究的全面回顾指出,AI模型的"黑盒"特性阻碍了临床应用。该论文分析了知名框架(包括LRP、Grad-CAM、SHAP和LIME),使用概念类型(事后与事前、模型无关与模型特定、局部与全局)。研究结论讨论了改进可靠AD诊断中XAI的局限性、挑战和前景。
Alotaibi等人描述了用于早期检测痴呆的"增强自动检测和分类痴呆思维无能者使用人工智能技术"(EADCD-TIPAIT)技术。该方法利用MRI数据进行预处理、z分数归一化和特征选择,采用BGGO算法提取有价值的生物标志物。然后,使用ISSA修改超参数,WNN分类器用于检测和分类痴呆。所提出的EADCD-TIPAIT技术在痴呆预测数据集上获得95%的准确率,表明其具有可靠高效的诊断潜力。Vlontzou等人的研究表明,使用体积MRI和遗传数据,提供了一个可解释的机器学习框架,以增强AD和MCI的诊断。同时采用了基于归因和基于反事实的可解释性方法来评估解释的强度,利用结合SHAP和反事实的综合策略。最佳模型的F1分数为90.8%,平衡准确率为87.5%。重要的体积和遗传特征被确定为关键风险因素,突显了该框架在清晰和临床适当的MCI/AD识别方面的潜力。
在Fathi等人的文章中,开发了一种轻量级卷积神经网络FiboNeXt,用于从MRI图像中识别AD。基于ConvNeXt架构,该模型通过结合连接层、注意力机制和受斐波那契序列启发的设计,减少可训练参数并提高效率。训练和评估在两个公开可用的MRI数据集上进行:原始和扩展版本。FiboNeXt的测试准确率为99.66%和99.63%,验证准确率为95.40%和95.93%。结果确立FiboNeXt作为医学成像中计算机视觉任务的竞争性解决方案,展示了其强大性能和在AD诊断之外的潜在用途。尽管许多模型在精心挑选的测试集上表现良好,但它们在跨站点或跨人群应用中的可靠性有限。未来研究必须通过域适应、联邦学习和可解释AI框架来解决这些限制。
3 方法与材料
在本节中,我们提出了一种使用结构MRI进行AD早期诊断的稳健集成学习方法。我们的框架基于将多个深度ConvNets与两种关键集成策略的整合:加权平均和堆叠泛化。该方法通过元学习器结合不同模型的输出,增强预测可靠性,从而超越传统多数投票技术的限制。
3.1 数据源和预处理
本研究选择了ADNI数据集,因其高质量和对AD研究的适用性。该数据集从全球成像中心收集,并由ADNI资助的MRI实验室进行预处理,确保标准化和可靠的神经影像输入。为进一步提高一致性,所有图像均统一缩放到224×224像素。此外,我们采用了定制的数据增强策略,包括裁剪、翻转、缩放以及亮度/对比度调整。这些增强步骤增加了数据集多样性并减少了过拟合风险,使深度学习模型的训练更加稳健,同时保持神经解剖结构的语义完整性。
3.2 混合集成的深度学习框架
设𝒟={(𝐱i,yi)}i=1N表示N个结构MRI样本的数据集,其中𝐱i是输入样本(代表灰质和白质的一组切片),yi∈{0,1}表示二元分类(例如,AD vs. MCI)的真实标签。我们提出的架构采用K个基础深度神经网络分类器{fk(⋅;θk)}k=1K,每个都在相同数据集上训练,但可能具有不同的架构或训练初始化。
3.2.1 基础学习者:迁移和微调
每个基础模型fk是一个使用ImageNet预训练权重初始化的深度ConvNet。我们采用三种成熟架构:ResNet50、NASNet和MobileNet,分别表示为f1、f2和f3。为适应医学成像,我们应用迁移学习,分两个阶段进行微调。
迁移学习已成为医学成像应用中的基本范式,其中标记数据通常稀缺。在本研究中,我们通过两个关键阶段利用迁移学习:特征冻结和微调。每个阶段在将预训练ConvNets(最初在ImageNet等大规模自然图像数据集上训练)适应AD和MCI分类的结构MRI扫描领域方面都发挥着至关重要的作用。
特征冻结:特征冻结指保持卷积基础层的权重固定,仅训练新添加的全连接(密集)层的策略。该技术基于深度神经网络中的早期卷积层捕获边缘、纹理和模式等通用低级特征的理念,这些特征在视觉域之间广泛可转移——即使在自然图像和医学图像之间也是如此。通过冻结这些层,我们保留了从大型数据集中学到的强大视觉表示,同时减少计算负担并防止过拟合——在ADNI等小型数据集中特别有价值。在实验中,导入ResNet50、NASNet和MobileNet等预训练模型后,我们移除原始分类头,并用专为二元分类(AD vs. MCI)定制的自定义密集层替换。这些新层随机初始化并在MRI数据上训练,同时保持骨干不变。此阶段的目标是通过仅优化少量参数,快速适应新分类任务。该方法产生令人惊讶的强基线性能,并为更深层次的适应提供低成本初始化。
微调:虽然特征冻结捕获通用特征,但它并未充分利用MRI图像中固有的领域特定结构。因此,在微调阶段,我们解冻卷积基础的选定顶部层,并使用小学习率进行端到端重新训练。该策略允许网络适应灰质和白质中可能对区分AD和MCI具有独特信息的更高层次特征。当源数据集(例如,ImageNet)和目标域(例如,神经成像)之间存在域偏移时,微调特别有益。通过更新后期层的权重,模型学习与目标任务更语义对齐的分层特征。然而,此阶段必须谨慎执行。过高的学习率可能破坏先前学习的通用特征,而过低的学习率可能无法提供有意义的适应。我们使用小学习率(例如,2×10^-5)与自适应优化(Adam)并应用dropout来减少过拟合。特征冻结和微调共同构成了一个强大的两步训练策略,平衡泛化和特异性。该方法使重用高质量预训练模型成为可能,同时允许深度适应阿尔茨海默病诊断的MRI数据特定特征。每个基础模型fk输出一个概率pk(𝐱i)∈[0,1],用于输入𝐱i,解释为样本属于AD类的预测置信度。
3.2.2 加权平均集成
在推理时,目标是为先前未见的样本𝐱预测类标签y^∈{0,1}。为此,输入𝐱首先通过所有K个训练好的基础模型f1,f2,…,fK。每个模型输出一个概率,表示𝐱属于正类(例如,AD)的可能性。可以采用两种集成策略通过加权平均集成计算最终预测。在此方法中,我们使用学习到的权重向量𝜶∈ℝK计算基础模型预测的凸组合,其中𝜶⊤𝟏=1且αk≥0对所有k。集成概率由下式给出:
p^=𝜶⊤𝐩=∑k=1Kαkfk(𝐱)
然后通过阈值化获得最终硬预测:
y^=𝕀(p^>τ)
其中𝕀(⋅)表示指示函数,τ是决策阈值,通常在平衡二元分类中设置为0.5。该方法假设最佳预测位于基础输出的加权平均上,最适合基础模型多样化但线性互补的情况。
为结合K个独立训练的基础分类器的预测输出,我们实施了加权平均集成策略。每个基础分类器fk产生一个标量概率pk(𝐱i)∈[0,1],表示样本𝐱i属于正类(例如,AD)的预测可能性。设输入𝐱i的预测向量表示为:
𝐩i=[p1(𝐱i), p2(𝐱i), ..., pK(𝐱i)]⊤∈[0,1]^K
为形成集成预测,我们为每个基础模型分配一个非负权重αk,使权重之和为1。定义权重向量:
𝜶=[α1, α2, ..., αK]^⊤,其中αk≥0且∑k=1Kαk=1
输入𝐱i的集成预测p^i然后由加权和给出:
p^i=𝜶⊤𝐩i=∑k=1Kαk·pk(𝐱i)
其中p^i∈[0,1]是正类的聚合概率。为学习最优权重𝜶,我们在验证集𝒟val={(𝐩i,yi)}i=1Nval上最小化经验风险,使用二元交叉熵损失函数:
ℒ(p^i,yi)=-[yi log(p^i)+(1-yi) log(1-p^i)]
优化问题因此为:
min𝜶∈Δ^(K-1) ∑i=1^Nval ℒ(𝜶⊤𝐩i,yi)
其中Δ^(K-1)表示(K-1)维概率单纯形:
Δ^(K-1)={𝜶∈ℝ^K:αk≥0, ∑k=1Kαk=1}
这种凸优化确保集成以原则性、数据驱动的方式利用每个基础分类器的相对优势。学习到的权重𝜶反映了每个模型对最小化验证集上预测误差的贡献。
3.2.3 堆叠泛化(Stacking)
虽然加权平均假设线性重要性,但堆叠引入了元学习器g(⋅;ϕ),在基础模型的预测上训练,以学习更灵活的组合规则。对于每个样本𝐱i,我们如前所述构建元特征向量𝐩i。然后训练元学习器以预测真实标签:
y^i=g(𝐩i;ϕ)
其中g可以是任何可微函数,如逻辑回归、浅层神经网络或梯度提升机。训练目标同样是使交叉熵损失最小化:
minϕ ∑i=1^Nmeta ℒ(g(𝐩i;ϕ),yi)
为防止信息泄漏和过拟合,我们采用k折交叉验证生成元学习器训练的折外预测。
3.3 网络架构
所提出集成学习框架的架构围绕三个预训练深度ConvNets:ResNet50、NASNet和MobileNet。这些模型在ImageNet等大规模图像分类任务上表现出色,作为从结构MRI数据中提取分层特征的骨干。为适应使用MRI进行AD诊断的任务,我们采用包含特征冻结和微调的两阶段迁移学习策略,随后通过加权平均和堆叠进行集成整合。
通过移除其原始分类头并添加适合二元分类(例如,AD vs. MCI)的新自定义分类器来修改每个ConvNet。新头由具有dropout正则化的全连接层组成,以防止过拟合。在初始训练阶段(称为特征冻结)中,每个模型的卷积基础保持不变,仅训练新添加的密集层。此步骤允许网络适应MRI数据的领域特定特征,而不改变基础中已捕获的通用低级特征表示。在微调的第二阶段,我们有选择地解冻每个网络的上部卷积层,并使用低学习率重新训练模型。这使网络能够基于灰质和白质区域中的结构模式完善其中级和高级特征检测器,这些模式对区分认知衰退阶段至关重要。这种两步训练过程平衡了可迁移性和领域特定性的需求,从而产生更准确和可泛化的模型。
训练后,三个ConvNets并行运行。给定输入样本𝐱,每个网络fk产生一个标量输出pk(𝐱)∈[0,1],表示𝐱属于正类的估计概率。这些输出被聚合到预测向量𝐩=[f1(𝐱),f2(𝐱),…,fK(𝐱)]⊤中。集成整合分两个阶段进行。首先,加权平均方案使用学习到的向量𝜶∈ℝ^K组合基础输出,使αk≥0且∑k=1Kαk=1。这产生软预测p^=𝜶⊤𝐩,然后通过阈值化获得最终标签。其次,为捕获基础模型输出之间的非线性交互,通过堆叠泛化在折外预测上训练元学习器g(⋅;ϕ)。该元学习器将𝐩作为输入,并输出g(𝐩;ϕ)∈[0,1],再次通过阈值化产生二元预测。该架构允许灵活、准确和可解释的预测。通过利用基础ConvNets的多样性以及堆叠的表达能力,该模型在区分AD、MCI和NC方面表现出色。此外,其模块化设计允许未来扩展以包括额外的输入模态或分类器,从而在诊断技术发展时保持适应性。
3.4 梯度加权类激活映射
为提高AD诊断中MRI数据的分类准确性和可解释性,我们整合了两种互补方法:先进的集成学习策略和使用Grad-CAM的可视化技术。首先,我们提出了一种新的集成公式,替换了原始工作中使用的简单多数投票方法。具体而言,设K表示基础深度神经网络的数量,每个网络对输入𝐱产生类概率预测fk(𝐱)。这些输出使用加权组合p^=∑k=1Kαkfk(𝐱)聚合,其中权重αk满足∑k=1Kαk=1且αk≥0。此外,为捕获基础模型输出之间的更复杂关系,我们引入了元学习器g(⋅),在基础预测向量𝐩=[f1(𝐱),…,fK(𝐱)]⊤上训练,使最终预测为y^=g(𝐩)。这种堆叠泛化方法允许集成学习最佳决策边界。
为提高可解释性,我们使用Grad-CAM来可视化ConvNet用于做出预测的MRI切片中的判别区域。设Ak表示第k个特征图,yc表示类c的类分数。每个特征图的重要性计算为αkc=1/Z∑i=1^H∑j=1^W∂yc/∂Ai,jk,类激活图然后通过L^c_Grad-CAM=ReLU(∑kαkcAk)获得。该热力图被上采样并与原始MRI切片叠加,以突出类判别区域。在AD诊断的背景下,我们的目标是突出海马或颞叶等神经解剖区域,通过Grad-CAM提供临床洞察和模型透明度。
3.5 实现
该模型使用Python和带有TensorFlow后端的Keras实现。训练在配备14核CPU和20核GPU的M4 Pro上进行。学习率初始化为2×10^-5,使用Adam优化器,批量大小为24。在全连接层上应用速率为0.5的dropout正则化,以减少过拟合。MRI切片使用SPM进行运动校正,并分割为灰质(GM)和白质(WM)。从每个体积中选择20个代表性切片,并调整大小为224×224以供ConvNet输入。ADNI数据集分为60%训练集、20%验证集和20%测试集。
所提出的集成框架提供了几个引人注目的优势,使其非常适合AD分类的复杂任务。首先,通过整合多个异构ConvNets(如ResNet50、NASNet和MobileNet)实现稳健性。这种架构多样性降低了相关错误的可能性,并减轻了模型特定的偏差和方差,从而产生更稳定和可泛化的预测。其次,该框架通过采用堆叠泛化表现出强大的适应性。堆叠引入了一个可训练的元学习器,能够捕获基础输出之间的非线性交互和上下文敏感的依赖关系,而不是假设基础学习者的固定线性加权。这允许集成在不同条件下动态学习信任哪些基础预测。第三,该方法具有高度可扩展性。新的模型、成像模态(如PET或DTI)或临床生物标志物可以无缝集成到集成管道中,而无需完全重新设计学习架构。这种即插即用的可扩展性确保框架能够随着医学成像和领域知识的进步而发展。此外,通过在折外预测上使用交叉验证训练元学习器,该框架保持严格的泛化性能并减少过拟合,使其成为神经影像学疾病诊断既理论上合理又实践有效的工具。
上述方法使用Python与TensorFlow和Keras实现。三个预训练卷积神经网络——ResNet50、NASNet和MobileNet——使用算法1在ADNI数据集的GM和WM MRI切片上进行微调。它们的softmax输出使用加权平均方案组合,其中权重通过验证性能进行优化。元学习器(逻辑回归)在基础模型输出上训练,以实现堆叠泛化。为模型可解释性,将Grad-CAM应用于每个网络的最终卷积层,生成特定于类的热力图,这些热力图与MRI切片叠加,以可视化对AD、MCI或NC预测贡献最大的区域。
4 结果与讨论
表2和表3显示了各种分类方法在AD vs. MCI和MCI vs. NC任务上的性能。表4将我们的方法与文献中几种先前发表的方法进行了比较。
本节分析所提集成策略在AD早期诊断中的性能,特别关注涉及AD、MCI和NC的分类任务。表2、表3和表4中显示的实验结果清楚地表明,改进的集成方法——利用堆叠和加权平均——比基线模型甚至先前的端到端集成方法提供了相当大的优势。
如表2所示,所有三个微调的单个模型——eResNet50、eNASNet和eMobileNet——都实现了高分类准确率(超过97%),表明它们在区分AD患者和MCI患者方面具有强大的能力。原始研究中的这些模型的集成("eEnsemble")产生了97.65%的准确率,具有完美的特异性和接近完美的AUC(1.00)。然而,所提出的改进集成超过了这一性能,实现了99.21%的准确率和98.89%的灵敏度。AUC保持在1.00,表明尽管准确率显著提高,模型区分类别能力没有下降。这里的关键优势在于堆叠的元学习能力。通过允许第二级学习器非线性地组合基础分类器的输出,堆叠模型可以学习利用ConvNet架构之间的互补决策边界。此外,加权平均有助于减少相对灵敏度或特异性较低的模型的影响,特别是eMobileNet,尽管稳健,但其灵敏度略低于eResNet50。灵敏度从96.00%(eEnsemble)提高到98.89%(改进集成)在临床上具有重要意义,因为它对应于更好地识别AD早期阶段,可能实现更早的干预和护理规划。特异性保持在100.00%,表明MCI病例被误诊为AD的情况为零,从而保持诊断精度,避免不必要的焦虑或治疗升级。
表3比较了模型在更具挑战性的MCI vs. NC分类任务上的性能。此任务的复杂性源于正常衰老和AD前驱阶段之间微妙的脑结构差异。基线集成(bEnsemble)甚至端到端集成(eEnsemble)表现尚可,准确率分别达到80.23%和88.37%。然而,所提出的改进集成将此性能提高到91.02%,在此背景下设定了新基准。这种改进可归因于堆叠架构学习的更精细决策边界。灵敏度从80.56%提高到86.11%,表明正确识别MCI受试者的能力显著提高。这在现实应用中至关重要,因为MCI的早期检测可以延缓或预防发展为完全AD。特异性保持在96.00%的高位,保持系统区分正常个体与早期认知障碍个体的可靠性。AUC也从0.96提高到0.98,反映了分类器置信度的增强以及多个阈值下真阳性率和假阳性率之间的平衡。这突显了我们所提集成设计在处理微妙临床表型方面的优势,其中噪声和重叠频繁出现。
表4将我们的方法与文献中几种先前发表的方法进行了比较。改进的集成方法在所有分类设置中都优于所有引用的方法。在AD vs. NC任务中,改进集成实现了99.10%的准确率,灵敏度为98.80%,特异性为100.00%。这优于Sarraf等人报告的98.84%和Billones等人报告的98.33%。虽然这些结果很强劲,但我们方法的边际收益突显了现代集成方法和从预训练网络进行高级迁移学习的力量。对于AD vs. MCI分类,改进集成实现了99.21%的准确率,显著优于Billones等人报告的90.00%和Ortiz等人报告的84.00%。更重要的是,我们的98.89%的灵敏度远远超过先前研究的结果,突显了深度微调和集成优化的有效性。特异性再次完美地达到100.00%,强化了我们模型的临床可靠性。在最具挑战性的MCI vs. NC分类任务中——通常由于结构差异不太明显——改进集成达到了91.02%的准确率,优于Ortiz等人报告的83.14%和Suk等人报告的73.02%。此外,我们的灵敏度和特异性平衡且强劲(86.11%和96.00%),表明该模型在关键边界情况下避免了诊断不足和过度诊断。
所有任务的性能提升证实了堆叠和加权集成学习在增强神经影像学诊断模型方面的潜力。从方法论角度看,结果验证了:(i)端到端训练比静态预训练模型产生更好的特征;(ii)组合多种架构(ResNet、NASNet、MobileNet)捕获多样化的表示特征;(iii)堆叠通过学习元级融合模式进一步完善决策制定。
从临床角度看,检测MCI和AD的更高灵敏度直接转化为更早的检测和改善的患者管理。高特异性表明的可靠性意味着更少的假警报,增加了在筛查场景中部署此类系统的信任。此外,扩展堆叠层以整合PET、脑脊液生物标志物或遗传数据等其他模态可能会产生进一步的改进。最后,模型决策过程的可解释性仍然至关重要,未来工作应整合可解释的AI方法以确保透明度。总之,表2、表3和表4中呈现的结果确立了所提改进集成策略为阿尔茨海默病诊断提供了显著优于传统和近期基于DL方法的改进。在准确率、灵敏度和AUC方面的收益特别突显了该方法在AD早期检测方面的实际可行性和临床相关性。
为进一步评估所提模型的分类性能,我们分析了个体和集成分类器的接收者操作特性(ROC)曲线。ROC曲线绘制真阳性率(灵敏度)对假阳性率(1 - 特异性),提供诊断准确性的综合衡量。
如图3所示,基础模型(eResNet50、eNASNet和eMobileNet)实现了AUC值约为0.95的一致ROC性能。原始集成方法(eEnsemble)通过多数投票组合这些基础模型的输出,将性能略微提高到AUC为0.96。相比之下,所提混合集成通过结合堆叠和加权平均,以AUC为0.98优于所有其他模型。这表明在灵敏度和特异性之间取得了更优的权衡。混合模型通过学习最佳融合权重并应用在受试者级MRI切片上泛化良好的元分类器,更好地利用了基础网络的互补优势。值得注意的是,混合集成在曲线开始时显示出更急剧的上升,表明其在区分早期病例时具有最少假阳性的改进能力。这一特点在早期诊断阿尔茨海默病可以显著影响患者治疗结果的临床环境中尤为重要。
图4说明了如何应用Grad-CAM技术来理解混合集成网络在结构MRI扫描上做出的分类决策。Grad-CAM计算目标类分数相对于最终卷积层特征图的梯度,从而生成热力图,定位输入图像中最关键的区域。在此示例中,预训练的混合集成模型用于将受试者分类为无AD或NC、MCI和AD类别。图的底行显示了每个预测的Grad-CAM叠加。对于无AD受试者,注意力集中在非病理区域,呈弥漫性分布。对于MCI病例,突出显示的区域包括内侧颞叶的部分,与早期认知衰退一致。在AD病例中,激活明显集中在海马和皮质萎缩区域周围,表明网络的注意力与已知的神经病理标志物很好地吻合。这些可解释的可视化加强了模型的临床相关性,并增强了对基于DL诊断系统的信任。
总体而言,混合集成被证明是分类AD阶段的稳健且高区分度的方法,强化了将DL与先进集成策略集成的价值。
5 结论
本研究提出了一种基于MRI数据的AD早期诊断的稳健且可扩展的集成框架。我们提出的方法整合了三种关键技术:迁移学习、加权平均和堆叠泛化。这些组件共同形成了一个强大的诊断流程,显著优于传统的机器学习方法和独立的卷积神经网络。表2、表3和表4中呈现的实验结果突显了我们的模型在涉及AD、MCI和NC受试者的各种分类任务中的有效性。
我们方法的核心是利用多样化的预训练CNN架构——ResNet50、NASNet和MobileNet——这些架构在脑MRI切片上进行端到端微调。这些模型捕获脑结构的不同表示特征,为集成提供学习特征的深度和广度。加权平均策略确保在推理过程中强调更可靠的基础分类器,而堆叠泛化机制通过元学习器组合基础模型预测来学习高级模式。这种两级架构使模型能够做出更细致的决策,特别是在区分MCI和NC等困难情况时。
我们的改进集成策略在所有评估任务中表现出色。具体而言,该模型在分类AD vs. MCI上实现了99.21%的准确率,在MCI vs. NC上实现了91.02%——这是两个最具临床意义的任务。值得注意的是,检测早期状况(如MCI)的灵敏度显著提高,这对及时医疗干预至关重要。受试者操作特性曲线下的面积保持在高水平(0.98-1.00),证实了模型在不同操作阈值下的可靠性。
除了原始性能外,我们的方法为真实临床部署提供了实用优势。通过利用迁移学习,该模型需要更少的训练数据和计算资源,同时仍能实现高准确率。集成结构提供了对过拟合和成像协议变异性的稳健性。此外,我们的框架是模块化和可扩展的——可以在不改变整个系统的情况下向集成添加新的基础模型或元学习器。
尽管具有优势,所提方法并非没有局限性。虽然ADNI数据集提供了标准化基准,但尚未验证其对其他临床数据集的泛化能力。MRI数据由于扫描仪硬件、成像协议和患者人口统计学的差异而表现出机构间变异性。为解决这一挑战,未来工作将探索域适应技术,使模型在机构间保持稳健。此外,整合联邦学习可以帮助构建广义模型,而不会损害数据隐私,特别是在跨多个医院或国家训练时。
总之,我们的集成方法代表了神经退行性疾病计算机辅助诊断的重大进展。它将模型多样性与智能融合策略结合起来,提供不仅准确稳定,而且适用于临床使用的系统。这项工作为未来扩展奠定了基础,这些扩展可以包括多模态数据、可解释AI组件和阿尔茨海默病早期筛查计划中的真实部署。
【全文结束】