使用放射组学和机器学习预测高血压自发性脑出血的血肿扩张：软投票集成方法 - AI与医疗健康

1. 引言

高血压自发性脑出血(SHICH)每年约占所有中风病例的10-30%，致残率和死亡率极高。大多数脑内出血(ICH)发生在基底节区域，导致一个月内极高的死亡率。约三分之一的SHICH患者会出现血肿扩张(HE)，这会显著影响其神经功能预后。因此，早期预测HE对于实现预防性干预至关重要，它可作为制定有效治疗计划的关键基础。

使用非增强计算机断层扫描(NCCT)成像是SHICH患者的主要诊断方法。先前的研究已识别出NCCT上观察到的形状和密度变化的各种指标，包括卫星征、混合征、漩涡征和黑洞征，用于预测HE的发生。然而，放射科医生的主观评估受经验水平差异影响，往往缺乏一致性，可能导致诊断错误。虽然上述影像标志物在预测HE方面具有潜力，但它们主要是定性或半定量的，依赖于主观解释，产生不一致的预测结果。此外，尽管这些影像学标志物在特异性方面表现良好，但在敏感性和准确性方面表现不佳，意味着它们无法预测许多HE病例。因此，已提出其他基于更先进技术的方法来提高HE预测的性能。

最近，一些研究利用图像处理技术结合深度学习(DL)和放射组学(基于机器学习(ML))算法来预测HE。然而，DL网络主要设计用于简单的二元分类任务，往往无法提供详细的定量输出。此外，当前的DL方法严重依赖手工设计的特征，这需要大量带有全面注释的训练数据集。放射组学是最近用于HE预测的图像处理方法之一，它旨在从医学图像(CT、MRI、PET等)中计算定量特征，基于所有解剖和功能图像包含与病理生理学相关的定性和定量信息这一事实，用于临床决策支持。放射组学最初用于肿瘤研究和自发性脑实质内血肿的肿瘤图像分析。

Shen等人于2018年提出了基于NCCT的纹理分析来预测早期HE，表明该方法可以量化ICH的异质性并预测HE。后续研究在此基础上进行了扩展。Xie等人提出了一种基于放射组学的HE预测模型，显示其优于传统放射学模型，曲线下面积更大。Li等人从NCCT图像中提取了1,227个纹理特征，并使用Pearson相关和聚类分析选择最具信息量的特征。他们用23种不同的分类器算法测试这些特征，发现线性SVM达到了最高准确率(72.6%)，成为HE预测的首选方法。

此外，一些研究探索了结合不同特征集，如临床、放射学和放射组学特征，以改善HE预测。Song等人基于这些组合特征提出了四种模型，并测试了五种不同的基于机器学习的算法。他们发现整合多个特征集显著增强了HE预测结果。Haider等人通过脑出血患者的非增强CT验证了即将发生的血肿扩张的放射组学特征。该研究应用了1130个放射组学特征和6个与HE相关的临床变量。结合选定的放射组学特征和临床变量达到了0.67的最高曲线下面积。Li等人应用基于CT的放射组学模型预测自发性脑内出血(SIH)的扩张。通过使用逻辑回归(LR)分类器，构建了两种放射组学模型，分别结合从NCCT图像(NCCT模型)和CTA图像(CTA模型)中提取的定量特征。在该方法中，NCCT模型和CTA模型的曲线下面积分别为0.925和0.873。

在相同方向上，主要基于卷积神经网络(CNN)的深度学习模型也在与脑出血相关的不同研究中被使用。Feng等人使用非增强CT预测SIH的扩张。放射组学分析和DL技术用于提取和评估自发性脑内出血(SICH)的语义特征，使用EfficientNet-B0分类模型。他们的结果显示血肿检测的准确率为98.2%。Zhou等人提出了一个用于自动预测SIH后HE的新DL框架。使用了490名SICH患者的NCCT图像。他们使用密集连接U-net进行分割过程，使用多实例学习策略解决标签模糊性，使用Siamese网络进行分类过程。开发了基于SVM或逻辑回归(LR)的两种放射组学模型，以及基于残差网络或Swin transformer的两种DL模型用于性能比较。

尽管放射组学特征提供了关于血肿组织学特性的宝贵见解，但它们依赖于感兴趣区域(ROI)的手动或半自动分割。这一过程可能劳动密集且效率低下，可能会忽略独特的语义特征。此外，它们从不同机器学习分类器获得的准确性相对较低。

在本研究中，旨在构建一个基于放射组学特征和基于机器学习算法的有效模型来预测SHICH患者的HE。从血肿区域提取放射组学特征并选择最具信息量的特征。随后，使用各种分类器并通过集成方法结合以增强HE预测的性能。本研究的另一个重要优势是通过优化的集成策略提高了分类性能。不是随意组合所有可用分类器，而是使用三种集成方法整合不同模型的输出，同时仔细选择最佳数量的高性能基础分类器。采用这种策略是为了增强集成的有效性，并避免因纳入较弱模型而导致的潜在性能下降。因此，所提出的方法导致更稳健可靠的分类结果。

本研究的其余部分组织如下：下一节描述本研究中使用的数据集、特征提取过程、机器学习算法和集成方法。第3节展示了单个分类器和集成模型的性能指标。随后的部分讨论了所提出的方法，探讨了研究结果的含义，并与先前的研究进行比较。

2. 材料和方法

图1显示了所提方法的框图。根据工作流程，首先对CT图像进行分割，然后从分割区域提取放射组学特征，接着使用两种特征选择方法的组合选择更具信息量的特征，然后将这些特征提供给五个分类器，最后使用软投票算法组合这些分类器的输出，以提升所提方法的性能。

2.1. 患者特征

这项回顾性研究已获得沙希德贝赫什提医科大学伦理委员会的批准，且免除了患者的书面知情同意。在伊朗冈巴德卡武斯市的Motahari医院，2017年至2023年期间在影像归档和通信系统(PACS)中登记的110名ICH患者接受了评估。在本研究中，纳入了在ICH发生6小时内进行初始CT扫描并在ICH发生24小时后进行随访CT扫描的18岁以上患者。排除了在CT扫描前已接受手术的患者，以及继发性脑出血、动脉异常、动脉瘤、头部创伤、脑肿瘤、缺血性梗塞、原发性脑干出血、颅内出血、脑室或多灶性出血以及出血小于3毫米的患者。低质量的CT扫描图像也被排除在评估之外。最后，确认患有ICH的89名患者接受了检查。患者的CT图像使用Neusoft 16切片CT扫描仪获取。图像采集参数包括管电压120 kV、智能mAs、矩阵大小512×512以及切片厚度1毫米至5毫米。患者选择过程如图2所示。

HE被定义为随访CT扫描相比初始CT扫描，血肿体积比例增加>33%或绝对增加>6 mL。基于此HE定义，所有sICH患者被分为两组：扩张组(n=64)和非扩张组(n=25)。这里，扩张组包括那些脑血肿发生扩张的患者，而非扩张组包括那些没有血肿扩张的患者。

2.2. 图像分割和放射组学特征提取

作为我们的ROI，血肿区域由经验丰富的放射科医生使用3D Slicer软件进行分割。为确保血肿区域的正确定位，血肿区域由两名独立的放射科医生确定。图3显示了一个扩张样本的第一张和第二张图像以及第二张图像中的分割ROI。从图像上的ROI中提取图像特征。

放射组学特征随后从每个图像的ROI中自动提取。使用该软件的PyRadiomics模块，为分割区域提取了总共105个放射组学特征。放射组学特征可分为几类：

1. 一阶统计特征(或基于强度的特征)：这些特征描述图像ROI内体素强度的分布。它们包括均值、标准差、偏度、峰度、熵。
1. 基于形状的特征：这些特征描述ROI的几何特性，可提供有关肿瘤或其他解剖结构大小、形状和紧凑性的见解，包括：体积、表面积、球形度、紧凑度。
1. 纹理特征：纹理特征描述体素强度的空间排列，捕获图像内的模式或变化。使用了不同的纹理分析方法，如：灰度共生矩阵(GLCM)、灰度游程长度矩阵(GLRLM)、灰度区域大小矩阵(GLSZM)。
1. 高阶统计特征：这些特征涉及更复杂的计算，可包括从变换(如小波变换)导出的特征，将图像分解为不同的频率分量，捕获更详细的信息。

2.3. 放射组学特征分析和选择

为了评估特征区分可扩张和不可扩张类别以及减少分类器输入维度的能力，计算了每个特征的p值。这里，扩张组包括那些脑血肿发生扩张的患者，而非扩张组包括那些没有血肿扩张的患者。在计算p值之前，有必要评估特征分布是否正常。使用Anderson-Darling (AD)检验测试特征的正态性。然后，对非正态分布的特征使用Wilcoxon符号秩(WSR)检验计算p值，对正态分布的特征使用方差分析(ANOVA)检验。使用这种统计方法，通过p值阈值0.05确定了区分两类的最显著特征。

在下一步中，应用了另一种著名的特征选择方法，最小冗余最大相关性(mRMR)，进一步降低所选特征的维度。mRMR是一种优先考虑与输出类高度相关且彼此之间冗余度低的特征的方法。最小冗余通过最小化特征间相关性来避免冗余特征，确保每个选定的特征贡献唯一的信息。最大相关性确保所选特征与目标变量具有强相关性(即它们包含对分类或回归高度相关的信息)。我们选择了mRMR特征选择方法，因为它在众多研究中被广泛使用，并且相比其他方法(如前向选择(FS)和递归特征消除(RFE))表现出优越的性能。与FS(遵循贪婪方法且未明确考虑特征冗余)不同，mRMR确保所选特征既与目标变量高度相关，又最小化冗余。此外，与RFE(计算密集且依赖于模型)相比，mRMR作为过滤型方法更高效，使其非常适合高维数据集，如脑电图和MRI。这些优势使mRMR成为我们研究中特征选择更有效和可靠的选择。

mRMR为每个特征分配一个分数，反映其与目标类的相关性，同时最小化与其他特征的冗余。较高的分数表示信息量更大且冗余度更低的特征，而较低的分数表明相关性较低或冗余度更高。根据排名选择最相关的特征，选择得分最高的特征进行进一步分析。通过利用mRMR分数，可以通过选择最信息丰富的特征同时减少冗余来增强模型性能和效率。

对于连续特征，相关性通常使用f统计量来评估，而冗余则通过特征之间的Pearson相关系数来衡量。选择过程涉及对目标函数进行贪婪搜索，该函数结合了相关性和冗余。这种目标函数的两种常用变体是互信息差(MID)标准和互信息商(MIQ)标准，它们分别量化相关性与冗余比率的差和商。在MATLAB R2024a中通过fscmrmr函数实现了mRMR算法。

由于特征选择在训练数据上进行，我们首先将数据集随机分为70%训练集和30%测试集。然后仅将特征选择过程应用于训练集，以防止测试集的信息泄露。为了考虑将数据集随机划分为训练和测试子集所引入的固有变异性，p值过滤后跟mRMR的两步特征选择过程在10次独立运行中重复执行。每次运行都涉及新的随机数据分割，由于数据分区和特征排名方法的随机性，可能会导致所选特征子集略有不同。通过多次重复选择过程，我们旨在减轻对特定数据分割过拟合的风险，并识别那些无论随机变化如何都具有一致信息量和判别力的特征。在不同运行中反复选择的特征更可能反映与结果变量的真实潜在关联，而非单一数据集配置的人工产物。完成10次重复后，我们聚合了所选子集并计算了它们的交集。这种策略确保只保留最稳定和可重复的特征。在我们的研究中，此过程产生了最终的13个稳健特征集，这些特征构成了后续模型训练和评估的基础。

图4展示了在分析的单次迭代中，通过p值过滤识别出的所有89个特征的mRMR分数。从该图中可以明显看出，特别是，在此迭代中，第18个特征之后mRMR分数降至零，表明只有前18个特征对模型有显著贡献，而其余特征不提供额外的相关信息。表1显示了18个显著特征及其相应的mRMR分数。

2.4. 模型构建和机器学习

本研究包括85名患者，64名非扩张患者和21名扩张患者，从这些患者中从ROI提取了放射组学特征。从这些数据中，70%用于训练和验证，剩余的30%保留用于测试。鉴于两类之间样本大小的差异以及分类准确性倾向于偏向样本量较大的类，采用了数据平衡技术来平衡训练数据中的样本数量。具体来说，使用了合成少数类过采样技术(SMOTE)来实现训练集中的这种平衡。SMOTE是一种过采样技术，通过在现有少数类实例之间插值生成新的合成实例，以平衡类别分布。

图5说明了SMOTE算法为扩张类生成的数据。为了可视化合成数据，仅将两个显著特征，即"original_shape_LeastAxisLength"和"original_shape_Maximum2DDiameterColumn"绘制在两个轴上。扩张类的合成数据紧邻真实扩张数据。

为确保一致性并避免数据泄露，应用了z分数归一化。数据泄露发生在创建模型时使用了训练数据集之外的信息，导致对新数据表现过于乐观的性能估计，这些估计无法很好地泛化。当模型在真实场景中无法获得未来数据、测试数据或任何其他信息时，就会发生这种情况。为避免数据泄露，z分数归一化的均值和标准差仅使用训练数据计算。如果均值和标准差是从整个数据集(包括测试集)计算的，模型将在训练期间获得关于测试数据的信息，导致人为的高性能和较差的泛化能力。通过确保归一化参数仅从训练集派生，然后一致地应用于训练和测试数据，可以防止数据泄露。均值和标准差仅使用训练数据计算。然后使用这些统计数据对训练和测试数据集进行归一化。

在数据预处理后，采用了五种分类模型。诊断系统中最重要的一部分是分类，因为其性能可直接影响系统的精确度。在本研究中，使用了五种著名的分类器：随机森林(RF)、朴素贝叶斯(NB)、支持向量机(SVM)、线性判别分析(LDA)和k近邻(KNN)，它们的输出通过集成方法合并。这些算法通过之前描述的p值和mRMR特征选择方法组合选出的13个显著特征进行训练。

RF是一种集成学习方法，使用多个决策树来提高预测准确性和稳健性。通过采用装袋法，它减少了方差并最小化过拟合，确保更好地泛化到未见数据。RF对异常值具有鲁棒性，能有效处理不平衡数据，并在偏差和方差之间取得平衡，使其成为复杂分类问题的可靠工具。k-NN是一种简单而有效的机器学习算法，基于特征空间中"k"个最近邻居对数据进行分类。它通过在最近标记点中进行多数投票来预测标签。作为非参数和惰性算法，k-NN不需要训练阶段，对数据分布不做假设，使其适合不规则决策边界。SVM是一种用于线性和非线性分类任务的强大机器学习模型。它识别最大分离类别的最优超平面，支持向量定义了边界。通过最大化这一边界，SVM抵抗过拟合并对未见数据具有良好的泛化能力。对于非线性可分数据，它使用核技巧将数据转换到更高维空间，使用线性、多项式或径向基函数(RBF)等核。虽然计算密集，但SVM在高维数据上表现出色，尽管需要仔细调整核函数和参数以避免欠拟合或过拟合。LDA是一种机器学习模型，用于识别特征的线性组合以分离类或降低维度。假设类之间具有正态分布和共享协方差，LDA将数据投影到低维空间以最大化类分离。它简单、快速，当其假设成立时效果良好。NB是一种基于贝叶斯定理的简单而有效的概率分类器，假设特征独立。它在文本分类和垃圾邮件过滤等任务中表现出色，即使对于大型数据集也能提供快速可靠的结果。其效率和最少的训练数据需求使其适合资源有限或需要快速部署的场景。

为了提高分类准确性和改善模型稳健性，实施了三种集成学习策略，即软投票、硬投票和堆叠，以组合多个基础分类器的输出。所有基础分类器都在同一数据集上训练，然后使用这些集成方法整合其预测结果。

在软投票策略中，每个基础分类器为给定输入样本生成目标类的概率分布。所有分类器预测的类概率平均形成聚合概率分布，选择具有最高平均概率的类作为最终预测。这种方法考虑了各个分类器的置信水平，当概率估计可靠且互补时非常有效。

在硬投票中，每个基础分类器提供单个类标签预测，最终决策通过分类器之间的多数投票确定。与软投票不同，硬投票不依赖概率估计，当类别概率校准不确定时可以提供更大的稳健性。

堆叠集成策略被用于对基础分类器之间的高层关系进行建模。在这种方法中，基础分类器的输出用作训练元分类器的输入特征，元分类器学习如何最优地组合个体预测。由于其简单性、稳健性和在小样本医学数据集上过拟合风险低，选择逻辑回归模型作为元分类器。这种设计使集成能够自适应地加权每个基础分类器的贡献并提高泛化性能。

为了进一步分析个体分类器对集成性能的贡献，采用了合理的子集选择策略。首先，评估了每个基础分类器(NB、LDA、SVM、KNN和RF)的独立性能，并根据其分类准确率对分类器进行排名。基于此排名，构建了三种集成配置：(i)由表现最佳的三个分类器组成的集成，(ii)由表现最佳的四个分类器组成的集成，以及(iii)整合所有五个分类器的集成。对每种集成策略(软投票、硬投票和堆叠)在这些配置上进行了评估，以评估分类器选择和集成设计对整体性能的影响。

3. 实验结果

为了评估所提方法，使用了敏感性、特异性和准确率指标。这些指标定义如下：

(1) 敏感性 = TP / (TP + FN)

(2) 准确率 = (TP + TN) / (TP + FN + TN + FP)

(3) 特异性 = TN / (TN + FP)

其中真阳性(TP)、真阴性(TN)、假阳性(FP)和假阴性(FN)。

为了评估所提方法，我们对数据集进行了30次随机分割，训练集和测试集比例为70-30，并报告了相应结果。这种重复分割程序用于减少单次训练-测试分割相关的方差，并获得对模型性能更可靠的估计。使用t检验计算了分类器之间所有评估指标(准确率、敏感性、特异性)的成对p值。

此外，我们计算了报告指标的置信区间(CI)。置信区间提供了真实性能度量预期存在的范围，具有一定概率(例如95%)。指标的95%CI可计算为：95%CI = X̄ ± 1.96(S/√n)，其中X̄和S分别是n次重复实验计算的指标均值和标准差。

报告p值和CI都提供了对结果统计显著性、精确性和可靠性的清晰理解。

在所有三种集成策略中，使用较小子集的顶级分类器实现了与整合所有基础模型相当或略好的性能。相比之下，纳入较弱的分类器没有带来额外好处，有时甚至降低了整体性能。虽然将三种集成方法与三种分类器子集组合会产生九种可能的配置，但呈现所有配置会使结果不必要地复杂化。因此，我们仅报告每种集成策略中表现最佳和最具代表性的配置，确保结果清晰简洁。

表2展示了在30次重复实验中计算的NB、KNN、LDA、SVM、RF分类器和三种集成方法的平均混淆矩阵。在表3-a、3-b和3-c中列出了五个分类器在平均敏感性±标准差、敏感性95%CI、敏感性p值、平均特异性±标准差、特异性95%CI、特异性p值、平均准确率±标准差、准确率95%CI和准确率p值方面的分类结果。

在五个分类器中，RF表现最佳，平均准确率、敏感性和特异性分别为87.20%、83.33%和88.42%。RF分类器平均正确识别了6名扩张患者中的5名和19名非扩张患者中的16.8名。相比之下，KNN分类器的平均准确率最低，为60.80%，平均仅检测到6名扩张患者中的2.3名和19名非扩张样本中的12.9名。

基于单个分类器的结果，与单个分类器相比，三种集成策略——硬投票、软投票和堆叠——都提高了整体性能。这种改进发生是因为组合多个分类器允许集成利用每个模型的优势，同时减轻个体弱点，从而产生更稳健可靠的预测。如前所述，当使用三个表现最佳的分类器——RF、LDA和SVM——时，获得了最佳集成结果。在评估的三种集成策略中，堆叠实现了最佳整体性能，其次是软投票，然后是硬投票。具体而言，堆叠的平均准确率为98.4±0.8%(95%CI:98.11-98.69%)，平均敏感性为93.33±3.32%(92.14-94.52%)，平均特异性为100±0%(100-100%)。软投票的性能略低，平均准确率为96.8±1.3%(96.33-97.26%)，平均敏感性为86.67±6.78%(84.25-89.09%)，特异性为100±0%(100-100%)。硬投票的平均准确率为93.6±1.76%(92.97-94.23%)，平均敏感性为80±5.69%(77.97-82.03%)，特异性为97.89±1.98%(97.19-98.59%)。

这些结果表明，堆叠不仅实现了最高的预测性能，而且在重复中表现出改进的稳定性，这反映在准确性和特异性方面相对较低的标准差上，与软投票和硬投票相比。总体而言，集成策略的选择显著影响分类结果的有效性和稳健性。

成对p值表明，在几乎所有情况下，分类器之间的差异在统计上都是显著的(p < 0.05)。极小的p值(例如0.00001或更低)提供了强有力的证据，表明观察到的性能改进不是由于随机变化。少数比较，p值在0.05-0.10左右，未达到统计显著性，表明在这些情况下分类器表现相似。总体而言，结果证实所提方法与替代算法相比，产生了显著不同且通常更优的性能。

此外，报告的三个度量的95%CI证明了所提方法的稳健性和稳定性。具体而言，相对较窄的范围表明分类准确率具有一致性，表明模型性能对数据变化不太敏感。总体而言，获得的CI通过显示实现的性能不仅平均值高，而且在多次试验中统计可靠，支持了所提方法的有效性。

图6显示了获得最佳结果的两种方法的ROC曲线，堆叠集成和软投票模型。可以看出，两种模型的曲线下面积分别为0.97和0.91，表明所提方法预测HE扩张的能力。

为了彻底研究计算复杂性的细节并评估所提方法在临床和紧急情况下的实际适用性，我们仔细计算了所提方法中每个步骤的运行时间。这些步骤的详细信息及其各自的运行时间在表4中全面呈现。该表有效地说明了所提方法中涉及的各个步骤以及每个步骤的平均相应运行时间。分析是在标准工作站(Intel i7 CPU, 16 GB RAM, 无GPU加速)上进行的。

如表4所示，放射组学特征提取步骤每例CT扫描只需几秒钟。特征选择过程和分类器训练计算量小，特别是仅使用了前13个特征。重要的是，一旦模型训练完成，对新患者的预测不到1秒，使该方法非常适合实时或近实时临床应用。

4. 讨论

本研究的结果强调了使用从NCCT图像中提取的放射组学特征结合机器学习算法对SHICH患者早期预测HE的重要潜力。这种方法利用定量图像分析和高级计算技术的力量来解决关键的临床需求。先前的研究表明，血肿体积增加10%会导致死亡率上升5%。此外，HE、功能结果和死亡率之间存在强烈的正相关。虽然早期干预已被证明可以减缓血肿增长，但它并不一致地改善临床结果，高危患者HE的主要风险因素仍未确定。因此，临床影像中迫切需要快速准确的风险检测。

放射组学特征与机器学习分类器的整合提供了一种分析NCCT图像的复杂方法。放射组学允许提取大量描述血肿纹理、形状和强度的定量特征。当通过机器学习算法处理这些特征时，可以揭示传统放射学评估中不易察觉的模式和相关性。

本研究的结果表明，在所使用的单个分类器中，RF分类器表现最高，平均准确率、敏感性和特异性分别为87.12%、83.33%和88.42%。相反，KNN分类器的准确率最低，为60.80%，敏感性最低，为38.33%。RF达到了最高准确率，因为它是一种集成学习方法，构建多个决策树并聚合它们的预测。这种方法降低了过拟合的风险并提高了模型的泛化能力。RF在高维数据集上表现良好，有效处理特征交互和不相关特征。此外，它对噪声和不平衡数据集具有鲁棒性，这可能促成了其优越的性能。KNN表现出最低的准确率和敏感性，因为它依赖于基于距离的相似性度量。KNN的性能高度依赖于邻居数量(K)的选择和不相关或冗余特征的存在。在不平衡数据集的情况下，KNN可能无法正确分类少数类样本，导致敏感性降低。此外，KNN对高维空间敏感(维数灾难)，其中距离度量变得不太有效，进一步降低了其检测某些模式的能力。这些结果表明，RF的集成方法有效地捕捉了特征之间的复杂关系。

为了进一步提高分类性能，本研究扩展了单一集成策略，系统地研究了三种集成方法，即软投票、硬投票和堆叠。此外，不是不加选择地组合所有可用的基础分类器，而是仅选择表现最佳的模型进行集成构建，同时故意排除较弱的分类器以防止潜在的性能下降。这种优化的集成设计显著提高了所提框架的稳健性和泛化能力。在评估的集成方法中，堆叠实现了最佳整体性能，平均准确率为98.4%，平均敏感性为93.33%，特异性为100%。这些结果表明，堆叠特别有效，通过元学习策略利用多个分类器的互补信息。软投票表现出略低但仍很强的性能，平均准确率为96.8%，敏感性为86.67%，特异性完美(100%)。这证实了聚合高性能分类器的概率输出可以显著提高预测可靠性，与单个模型相比。硬投票表现出相对较低的性能，平均准确率为93.6%，敏感性为80%，特异性为97.89%，反映了无置信加权的决策级融合的局限性。

在分类准确率方面，结果相对于其他技术有所进步。表5简要比较了本研究和先前研究在诊断有效性和所建议方法方面的结果，本研究优于其他研究。因此，本研究展示了更有效的性能。本研究的另一个优势是，为了提高分类准确率，使用软投票方法组合了不同分类器的结果。

所提的流程计算效率高，在紧急情况下也不会造成显著延迟，即使在需要及时决策的紧急情况下也是如此。这种效率主要归因于使用具有小特征集的经典机器学习算法，而不是计算密集的深度学习模型。

虽然本研究的结果很有希望，但本研究有一些局限性。研究的回顾性性质和相对较小的样本量(仅89名患者(64名非扩张对25名扩张)，来自单一中心，使用单一CT扫描仪)，可能限制了研究结果的普适性。显然，样本量直接影响模型性能、模型结果的泛化和避免过拟合。通过使用更大的数据集，可以减少方差并获得更可靠的性能估计。因此，未来的研究应着重在更大、前瞻性队列中验证所提模型，以确认其临床效用。如前文所述，在本研究中，仅进行了内部验证，所有实验都基于相同的数据集分割(70%训练，30%测试)。需要独立的外部验证是本研究的一个局限性，建议未来使用公共数据集或来自不同合作医院的数据进行验证。在本研究中，仅使用图像特征进行建模；然而，纳入额外的临床特征，如患者人口统计学、病史和实验室结果，可以进一步提高所提模型的预测准确性。探索其他先进的机器学习技术，如深度学习，也可能进一步提高性能。此外，为了未来优化，嵌入式特征选择技术和轻量级分类器可以进一步减少运行时间，而并行处理或GPU加速可以增强对更大数据集的可扩展性。此外，将流程集成到医院PACS系统中可以促进无缝实时部署。这些补充加强了我们研究的临床相关性，并证明所提框架在紧急情况下的及时决策中是可行的。

5. 结论

在本研究中，提出了一种方法，利用从NCCT图像中提取的放射组学特征，并采用NB、LDA、SVM、KNN和RF分类器的组合，通过三种集成方法进行SHICH扩张预测。结果表明，特别是堆叠集成方法显著增强了预测性能。我们的研究结果强调了放射组学特征结合先进机器学习技术在提供准确和早期HE预测方面的潜力，使及时有效的临床干预成为可能。总体而言，研究结果表明，所提的基于放射组学的机器学习框架不仅准确，而且在临床实施中计算上可行，用于预测血肿扩张。

【全文结束】