基于机器学习的冠状动脉疾病预测:临床与行为数据的比较研究Machine Learning-Based Prediction of Coronary Artery Disease Using Clinical and Behavioral Data: A Comparative Study

环球医讯 / AI与医疗健康来源:www.mdpi.com土耳其 - 英语2026-01-23 20:22:16 - 阅读时长33分钟 - 16088字
本研究通过整合人口统计学、人体测量学、生化和心理社会数据,评估了多种机器学习算法预测冠状动脉疾病的性能。研究发现k近邻算法表现最佳,准确率达98.33%,AUC值为0.99;支持向量机和人工神经网络也表现出色。患者组血糖、甘油三酯、低密度脂蛋白胆固醇和腹部肥胖指标显著升高,维生素B12水平降低,这些发现揭示了冠状动脉疾病的代谢风险特征,并证明了多维度数据整合在心血管疾病预测中的重要价值,为临床决策支持系统提供了新思路。
冠状动脉疾病机器学习诊断模型临床数据行为数据心血管风险人体测量学生化参数心理社会因素k近邻支持向量机人工神经网络
基于机器学习的冠状动脉疾病预测:临床与行为数据的比较研究

摘要

背景与目的: 冠状动脉疾病(CAD)是全球发病率和死亡率的主要原因。早期准确诊断对于有效的临床管理和风险分层至关重要。机器学习(ML)的最新进展为通过整合多维患者数据来提高诊断性能提供了机会。本研究旨在开发并比较几种监督式机器学习算法,用于通过人口统计学、人体测量学、生化和心理社会参数进行早期CAD诊断。

材料与方法: 对300名成年患者(165名CAD阳性患者和135名对照)进行回顾性分析,数据集包括21项生化标志物、身体成分指标和自报告的饮食行为评分。使用10折交叉验证训练和评估了六种机器学习算法:k近邻(k-NN)、支持向量机(SVM)、人工神经网络(ANN)、逻辑回归(LR)、朴素贝叶斯(NB)和决策树(DT)。基于准确率、灵敏度、假阴性率和受试者工作特征(ROC)曲线下面积(AUC)评估模型性能。

结果: k-NN模型表现最佳,准确率达98.33%,AUC为0.99;SVM(96.67%,AUC=0.95)和ANN(95.33%,AUC=0.98)紧随其后。CAD患者表现出显著更高的血糖、甘油三酯(TGs)、低密度脂蛋白胆固醇(LDL-C)和腹部肥胖水平,而维生素B12水平较低(p<0.001)。虽然情绪化进食和正念进食评分在两组间有显著差异,但其对模型性能的贡献有限。

结论: 机器学习模型,特别是k-NN、SVM和ANN,在应用于多种临床和行为变量时,已证明能够高精度地区分CAD患者与健康对照。本研究强调了整合心理社会和临床数据以增强CAD预测模型的潜力,超越了传统生物标志物的局限。

关键词:冠状动脉疾病;机器学习;诊断模型;临床数据;心理社会因素;心血管风险

1. 引言

冠状动脉疾病(CAD)是全球主要的公共卫生问题,具有高死亡率和发病率。临床和流行病学数据表明,CAD不仅在发达国家,而且在中低收入国家也构成了重大的医疗负担[1]。这突显了开发早期诊断和风险评估策略的迫切需求,以便进行及时干预,从而改变疾病进程[2]。

传统诊断方法仅限于临床评估和非侵入性成像技术。因此,开发用于CAD早期检测的新型生物标志物和预测模型具有重要意义。特别是,身体成分分析和代谢参数的结合为预测疾病预后提供了一种有前景的方法[3]。在此背景下,多参数的综合评估可能有助于更准确和个性化地识别CAD。

评估CAD风险的传统临床方法通常依赖于侵入性方法,这可能给患者带来额外风险。为克服这一限制,最近开发了越来越多利用非侵入性数据的模型,如个体的人体测量特征(如腰围、体重指数(BMI)、肌肉量)和生化指标(如血糖、糖化血红蛋白(HbA1c)和血脂谱)[4]。这些指标被认为是心血管风险定量评估和个性化治疗策略的基础工具[2]。此外,收集此类数据的大规模队列研究能够对风险建模进行更复杂和全面的分析[5]。

此外,心理社会饮食行为对CAD风险的潜在影响近年来引起了越来越多的关注。情绪化进食和饮食意识等行为因素影响个体的饮食习惯,从而影响其代谢谱[6]。评估心理社会状况和生活方式因素对心血管风险的影响可能超越传统风险评分,为风险评估提供更全面的方法[2]。特别是,将主观自报告数据与客观生化和人体测量指标相结合,可以更准确地反映个体的风险谱[4]。

近年来,机器学习(ML)已成为医学研究中广泛使用的方法。这些技术在识别大型复杂数据集中的隐藏模式以及预测疾病诊断和预后方面具有显著优势[7,8,9,10]。机器学习算法整合传统临床数据与生化、人体测量和行为指标,能够更准确地预测CAD风险[11]。使用此方法开发的模型在患者特异性风险预测方面表现出改进的准确性,并已成为临床决策支持系统的基本组成部分[1]。此外,所采用的数据处理技术和模型优化策略允许从大型数据集中获取有意义的见解[4]。特别是,监督学习算法在临床数据分类中提供高准确性,是协助医生决策的宝贵工具。在本研究中,使用机器学习模型来研究CAD与人口统计学、人体测量和生化标志物之间的关系。

然而,尽管许多研究仅专注于预测CAD的存在,但很少有研究基于与疾病相关的临床和生化参数的全面评估来开发分类模型。然而,CAD在个体中可能表现出异质性的临床过程,对疾病管理的个性化风险分层需求日益增加。根据人口统计学、人体测量和生化特征对患者进行分层,可能更有效地规划诊断和治疗过程。此外,本研究调查了确诊CAD的个体与未确诊CAD的个体之间人口统计学(年龄、性别)、人体测量(BMI、腰围、体脂百分比)和生化(血糖、HbA1c、血脂谱)参数的差异。应用包括k近邻(k-NN)、支持向量机(SVM)和人工神经网络(ANN)在内的机器学习算法,以确定这些变量中最具影响力的预测因子并确定它们对模型性能的相对贡献[12,13]。整合异质临床数据源(如人体测量和生化标志物)已被证明可以提高分类准确性,改善CAD的个性化风险分层,优于仅使用传统风险因素[12,14]。此类模型可以通过提供超越传统评分系统的决策支持见解,支持早期检测和个性化管理[14]。然而,挑战仍然存在于协调异构数据格式、管理缺失值以及确保机构间可重复性——这是本研究的关键重点。因此,本研究旨在开发能够分类CAD存在的机器学习模型,同时探索人口统计学、人体测量和生化维度的临床特征差异。这种方法有望为个性化决策支持系统的开发和主动医疗服务的提供做出重要贡献。

相关工作与文献综述

许多研究应用机器学习技术,使用各种临床、人口统计和影像数据组合进行CAD诊断。然而,相对较少的研究在同一多变量框架内同时整合人口统计、生化、人体测量和心理社会维度。

表1提供了近期和相关研究的比较总结,这些研究应用机器学习算法进行CAD预测。这一文献综述突显了跨研究方法和数据类型使用的多样性,并为本研究采用的集成多变量策略奠定了基础。

2. 材料与方法

本研究旨在开发和评估用于预测冠状动脉疾病(CAD)的机器学习模型,使用从临床记录中获取的人口统计学、人体测量学、生化和心理社会数据。总体而言,数据集包括21项生化参数(血糖、HbA1c、甘油三酯、高密度脂蛋白胆固醇、低密度脂蛋白胆固醇、总胆固醇、肝酶、甲状腺激素、维生素B12、铁蛋白、血红蛋白等)、六项人体测量指标(身高、体重、腰围和臀围、体脂百分比和肌肉量)以及两项心理社会量表(情绪化进食量表和正念进食问卷)。选择这些变量是为了提供每个参与者的全面临床和行为概况。

2.1. 患者特征

本回顾性研究包括2025年2月11日至2025年7月12日期间曾前往Amasya大学医学院心脏病门诊的18岁以上成年个体的数据。获得伦理批准后,从医院数据库中提取了相关的临床记录,包括人体测量数据、身体成分分析和血液生化参数。在本研究中,CAD的确诊定义为存在血管造影证实的冠状动脉粥样硬化或通过负荷超声心动图、心肌灌注显像(MPS)或计算机断层扫描血管造影(CTA)证明的心肌缺血证据。标准静息心电图(ECG)和超声心动图(Echo)用于基线心脏评估,而负荷测试则在发现模糊或临界结果的患者中进行。为避免诊断标记中的偏差,排除了既往进行过心肌血运重建(经皮冠状动脉介入治疗或冠状动脉旁路移植术)的个体。研究方案获得了Amasya大学伦理委员会的批准(决定编号:2024/177)。由于研究的回顾性质,Amasya大学校长办公室非干预性临床研究伦理委员会豁免了获取患者知情同意的要求。

CAD的诊断基于临床评估结果、非侵入性成像方法(如ECG、Echo、CTA和MPS)确认,必要时通过传统冠状动脉造影(CAG)检查。

在这些诊断方式中,CTA和MPS最常用于确认CAD,其次是Echo和静息ECG分析。回顾性数据集在各种方式中的完整性各不相同;大约15%的初始记录缺乏完整的生化数据,8%缺乏影像记录,这些在分析前被排除。所有剩余记录均由两名心脏病专家交叉核对,以确保数据完整性并减少回顾性病历审查导致的误分类偏差。

纳入标准是具有完整数据集且经确诊或排除CAD的成年个体。患有严重系统性疾病(如晚期肝病、慢性肾衰竭、活动性恶性肿瘤)可能显著影响生化或人体测量参数的患者、在数据收集中经历急性冠脉综合征(ACS)或其他急性心血管事件的患者以及怀孕或哺乳期妇女被排除在研究之外。

回顾了2500名患者的记录,应用严格的纳入和排除标准后,研究包括了300名符合所有资格要求的患者数据。其中,165名患者被诊断为CAD,其余135名被分配到对照组。研究人群的总体性别分布相对均衡,160名男性(53.3%)和140名女性(46.7%)。在CAD组中,92名患者为男性(55.8%),73名为女性(44.2%),而对照组由68名男性(50.4%)和67名女性(49.6%)组成。

虽然初始数据库包含2500名患者记录,但只有300例在排除不完整或混杂数据(如缺失的人体测量参数、系统性疾病、急性冠脉综合征或既往血运重建)后满足预定义的质量和完整性标准。这种减少反映了有意的数据整理和质量控制,而非数据丢失或选择偏差。其他探索性基于机器学习的CAD研究中报告了相当的样本量,支持我们方法的方法学一致性[16,20,24,26]。

研究人群的人口统计学和临床特征详见表2,包括年龄、性别、人体测量和血液生化参数的分布。

本研究采用的方法工作流程,从数据收集到模型评估,如图1所示。该流程图总结了所有步骤,包括纳入标准、建模过程和性能评估。

2.2. 身体测量

本研究从参与者中收集了与身体测量相关的各种人体测量数据。测量包括身高、体重、腰围、臀围、体脂百分比和肌肉量。将获得的值在对照个体和确诊为CAD的患者之间进行比较,并进行统计分析。表3展示了相关发现。人体测量特征在CAD组和对照组之间显示出所有参数的显著差异,其中腰围和体脂百分比显示出最强的预测价值。排除患有系统性疾病(肝病、肾衰竭、恶性肿瘤)或急性冠脉综合征(ACS)的参与者,确保了同质和稳定的数据集。从最初的2500名患者记录中,2200名(88%)因缺失或不完整条目被排除,得到最终分析样本300名患者。

分析显示,有CAD和无CAD个体之间的所有身体测量指标均存在统计学显著差异(p<0.001)。值得注意的是,腹部肥胖指标(如腰围和臀围)的差异尤为突出。这些发现支持了腹部脂肪在CAD发展中的潜在作用。

2.3. 实验室参数

本研究中评估的所有生化和激素参数都是临床评估疑似或确诊冠状动脉疾病患者时常规测量的,符合主要心血管指南的建议[27,28]。在本研究中,从参与者中收集了各种生化和激素数据。这些包括血糖、HbA1c、甘油三酯(TGs)、高密度脂蛋白胆固醇(HDL-C)、低密度脂蛋白胆固醇(LDL-C)、非高密度脂蛋白胆固醇(non-HDL-C)、天冬氨酸氨基转移酶(AST)、丙氨酸氨基转移酶(ALT)、碱性磷酸酶(ALP)、γ-谷氨酰转移酶(GGT)、游离三碘甲状腺原氨酸(FT3)、游离甲状腺素(FT4)、促甲状腺激素(TSH)以及维生素B12、铁蛋白和血红蛋白(Hgb)等临床相关指标。此外,还计算了甘油三酯-葡萄糖(TyG)指数、血浆致动脉粥样硬化指数(AIP)和LDL-C/HDL-C比值等代谢风险指数。在有CAD和无CAD个体之间比较收集的数据,结果总结在表4中。

在这一回顾性队列中,血糖、HbA1c、甘油三酯和LDL-C等生化变量与腰围和BMI等人体测量指标一起,与确诊CAD的相关性最强(所有p<0.001)。冠状动脉CTA和心肌灌注显像(MPS)等非侵入性成像方式是CAD确认中最常使用的方法,而静息ECG和超声心动图则作为基线评估。

统计分析显示,CAD个体的多项生化参数水平显著高于对照个体,特别是血糖、HbA1c、LDL-C、TG和TC(p<0.001)。相比之下,CAD组的维生素B12水平显著较低。这些发现突显了CAD与代谢失调之间的关联。

2.4. 情绪化进食和饮食意识数据

在本研究中,分析了情绪化进食量表(EES)和正念进食问卷(MEQ)的数据,以评估参与者饮食行为的心理社会方面。情绪化进食反映了个体在压力、愤怒或焦虑等情绪状态下进食的倾向,而正念进食则衡量个体对生理饥饿和饱腹感线索的敏感性以及在进食行为中保持意识的能力[7]。

CAD组的EES显著高于对照组(CAD组均值=3.18,标准差=1.11;对照组均值=3.94,标准差=0.36;p<0.001)。同样,CAD组的MEQ低于对照组(CAD组均值=3.39,标准差=0.73;对照组均值=3.66,标准差=0.18;p<0.001)。

为确保后续统计测试的适当性,使用Kolmogorov-Smirnov检验评估了分数分布的正态性。结果证实两个变量均呈正态分布,从而支持使用参数统计方法进行进一步分析。妊娠相关的生理变化和激素波动是排除标准之一,因为它们可能影响人体测量和生化标志物。观察到CAD患者中较高的情绪化进食量表(EES)和较低的正念进食问卷(MEQ)评分表明,行为倾向(如与压力相关的进食)可能间接导致代谢失调和心血管风险升高[14]。这些发现支持将心理社会变量整合到CAD预测模型中,以捕捉疾病风险的行为成分。

2.5. 统计分析

所有统计分析均使用社会科学统计软件包(SPSS)第25.0版(IBM Corp.,Armonk,NY,USA)进行。

使用Shapiro-Wilk检验评估连续变量的正态性。正态分布的变量表示为均值±标准差,而分类变量表示为数量(n)和百分比(%)。

对于两组之间的比较,连续变量使用独立样本t检验,分类变量使用卡方检验。在p值<0.05时认为差异具有统计学意义。

此外,为识别对CAD诊断具有高辨别力的变量,对显著不同的变量进行了受试者工作特征(ROC)曲线分析。为每个参数计算曲线下面积(AUC),以评估其区分患者与对照个体的能力。

为控制21项生化参数之间多重比较导致的I类错误,应用了Bonferroni校正。调整后的显著性水平设定为p<0.0024(0.05/21)。达到此调整阈值的变量被认为具有统计学显著性。

2.6. 分类

本研究中的分类过程基于从Amasya大学医学院心脏病门诊就诊的成年人获取的人口统计学、人体测量学和生化数据。本研究的主要目标是开发能够基于患者特征准确可靠地预测CAD的模型。数据集收集于2025年2月11日至2025年7月12日,每个个体被标记为CAD阳性或CAD阴性。

分类模型中包含了所有可用特征,不进行特征选择。此方法旨在利用所有潜在的信息源,避免排除可能具有临床相关性的变量。总共,21项生化参数,包括年龄、性别、身体测量和衍生指数(如TyG指数、AIP和LDL-C/HDL-C比值),被用作输入变量。此决定确保所有人口统计学、人体测量学和生化变量都为预测过程做出贡献,允许评估每个变量在CAD分类中的相对权重。虽然这种方法可能降低可解释性,但它保留了数据丰富性,避免了过早排除可能具有信息价值的预测因子[12]。

分类模型基于监督学习算法构建。使用并比较了多种机器学习技术,包括决策树(DTs)、支持向量机(SVMs)、朴素贝叶斯(NB)、k近邻(k-NNs)、人工神经网络(ANNs)和逻辑回归(LR)。使用各种指标评估模型性能:准确率、灵敏度、特异性、F1分数和AUC。

在模型训练前,所有连续特征均使用z分数标准化,以确保生化和人体测量参数之间的可比性。使用四分位距(IQR)标准检查离群值,并对极值进行Winsor化处理,以减轻其影响同时保持数据完整性。

使用分层10折交叉验证进行模型评估,确保每个折中保留类别比例(CAD与对照)。在每次迭代中,90%的数据用于模型训练,10%用于验证,应用固定随机种子以确保可重复性。

此方法增强了模型在不同数据子集上的泛化能力,降低了过拟合风险,并产生了可靠的性能指标,可以指导临床适用的决策支持系统的开发,并有助于优化数据驱动的医疗服务。

2.6.1. 决策树(DTs)

决策树是分类算法中流行的工具,因其简单、类似流程图的结构而受到青睐。内部节点表示决策点,通常以矩形表示,叶节点以椭圆形表示,指示结果。决策树因其易于解释和实现而受到青睐,与其他分类方法相比。它们能够处理数值和分类数据,并用于各种应用,包括机器学习、数据挖掘和模式识别[29,30]。

2.6.2. 支持向量机(SVMs)

支持向量机(SVM)是一种强大且广泛使用的监督学习算法,由Vladimir Vapnik提出,旨在找到最佳超平面,以最好地区分属于不同类别的数据点。它在高维空间中特别有效,并由于其稳健性和可扩展性,经常应用于生物医学信息学、图像识别和文本分类任务[31,32]。

2.6.3. 朴素贝叶斯(NB)

朴素贝叶斯(NB)是一种基于贝叶斯定理的概率分类算法,计算给定一组特征的类的后验概率。NB做了"朴素"假设,即所有特征在给定类标签的条件下是条件独立的。尽管这一简化在现实世界数据中经常被违反,但它仍然非常有效,特别是在高维空间中。其优势包括快速计算、最少的训练数据要求以及适用于二元和多类分类任务。NB广泛应用于文本分类、垃圾邮件过滤和医学诊断等需要概率推理的应用中[33,34]。

2.6.4. k近邻(k-NNs)

k近邻(k-NN)算法是一种简单而强大的分类方法。它在训练过程中不创建模型。相反,它存储所有训练数据,并基于最近的d值进行预测。

这种非参数方法不需要训练阶段,使其占用内存但简单直接。当决策边界是非线性或不规则时,k-NN特别有效[35,36]。

2.6.5. 人工神经网络(ANNs)

人工神经网络(ANNs)是机器学习中的基础技术,模仿人脑的神经网络。ANN由相互连接的节点或神经元组成,每个连接代表突触权重。ANN最常见的类型是前馈神经网络,其中信息从输入节点通过隐藏层(如果有)流向输出节点。这种架构的广泛使用版本是多层感知器(MLP),通常使用反向传播算法进行训练。该方法逐步调整网络权重,以最小化预测结果与实际结果之间的差异[37,38]。

2.6.6. 逻辑回归(LR)

逻辑回归(LR)是一种基础分类算法,广泛用于生物医学研究中的二元结果预测。

该模型因其简单性、可解释性和计算效率而受到重视。它通过比值比提供对单个预测因子影响的直接见解,使其特别适合临床环境中的风险因素分析。尽管假设线性关系,LR通常在医学诊断、社会科学研究和信用评分应用的分类任务中作为强有力的基线[39,40]。

2.7. 超参数调优细节

使用MATLAB的分类学习器应用(Classification Learner App,版本R2023b,MathWorks,Natick,MA,USA)进行超参数优化,该应用提供了用于训练和比较多种机器学习分类器的交互式界面。对于每个模型,使用内置选项(如网格搜索和交叉验证)进行自动超参数调优。

在模型调优过程中,在MATLAB分类学习器(CL)环境中实施了10折交叉验证,以最小化过拟合并确保模型泛化能力。在每一折中,所有预处理程序(包括特征归一化、缩放和数据分割)均独立应用,以防止训练和验证子集之间的信息泄漏。应用的内置优化功能在预定义参数范围内执行网格搜索(例如,逻辑回归的正则化强度变化、SVM的核类型和盒约束、k-NN的邻居数量以及ANN的隐藏神经元数量)。

表5总结了探索的超参数和为每个模型选择的最佳性能值。从计算角度看,省略特征选择增加了训练时间,但提供了更全面的变量信息。

3. 结果

在本研究中,实施了各种监督式机器学习算法来预测CAD,并比较了其分类性能。在模型开发阶段未应用特征选择,所有人口统计学、生化和人体测量变量均包含在模型中。分类性能结果在图2中展示的混淆矩阵热图中可视化。来自这一综合数据集的发现证明了数据多样性和丰富性在提高模型性能方面的重要作用。实际上,使用所有可用特征使模型能够准确区分对照个体和确诊CAD的个体。这清楚地强调了在临床决策支持系统开发中多维度和多学科数据利用的关键重要性。

如图2所示,k-NN模型正确分类了165名CAD病例中的162名和135名对照受试者中的133名,为CAD类别提供了98.18%的真阳性率(TPR)和1.82%的假阴性率(FNR)。同样,SVM和ANN模型的TPR值均高于96%,分别仅误分类5名和5名CAD病例。决策树模型误分类13名对照和5名CAD病例,而朴素贝叶斯实现了平衡性能,误分类7名对照和9名患者。这些结果表明k-NN、SVM和ANN模型最小化了假阴性,这在诊断环境中至关重要[12,13]。

在这些矩阵中,行表示实际类别标签(CAD和对照),列表示预测类别标签。对角线单元格表示正确分类(真阳性和真阴性),而非对角线单元格反映误分类。

k-NN模型表现出最平衡和准确的性能,正确分类了165名CAD病例中的162名和135名对照个体中的133名。SVM和ANN在最小化CAD病例中的假阴性方面表现出高分类一致性。相比之下,DT模型表现最差,误分类13名对照个体和5名CAD病例。这些发现从视觉上证实了表6中呈现的数值性能指标,强调了k-NN、SVM和ANN等模型在CAD预测中的卓越诊断能力。

在测试的模型中,k-NN算法达到了最高的分类准确率98.33%。它在两个类别中都表现出色,CAD类别的真阳性率(TPR)和假阴性率(FNR)分别为98.18%和1.82%,对照类别的TPR和FNR分别为98.52%和1.48%。SVM模型也表现出竞争力,总体准确率为96.67%,CAD类别的TPR/FNR值为96.97%/3.03%,对照类别的TPR/FNR值为96.30%/3.70%。ANN紧随其后,准确率为95.33%,CAD类别的TPR/FNR值为96.97%/3.03%,对照类别的TPR/FNR值为93.33%/6.67%。

其他模型表现出中等但值得注意的性能。NB模型准确率为94.67%,CAD类别的TPR/FNR为94.55%/5.45%,对照类别的TPR/FNR为94.81%/5.19%。DT模型准确率为94.00%,但类别间差异较大:CAD类别为96.97%/3.03%,对照类别为90.37%/9.63%。LR模型表现出最低准确率91.33%,CAD类别为90.91%/9.09%,对照类别为91.85%/8.15%。总体而言,k-NN、SVM和ANN在两个类别中均表现出卓越性能,k-NN是最平衡和有效的模型。这些发现详述在表6中,该表提供了模型灵敏度(TPR)、漏诊率(FNR)和总准确率的类别细分。

总之,CAD个体与对照组相比,表现出显著更高的血糖、HbA1c、甘油三酯和LDL-C水平,以及更大的腰围和体脂百分比(p<0.001)。相比之下,CAD患者的维生素B12水平明显较低。这些发现表明CAD具有明确的代谢和人体测量风险特征。在评估的算法中,k-NN实现了最高的分类准确率(98.33%,AUC=0.99),其次是SVM(96.67%)和ANN(95.33%)。特征重要性分析突显血糖、LDL-C和腰围是区分CAD阳性与对照个体的最具影响力的预测因子,与代谢失调和动脉粥样硬化之间的病理生理联系一致。

在本研究中,为每种机器学习算法生成了ROC曲线,并计算了AUC值,以评估其在诊断CAD中的辨别能力。ROC曲线说明了真阳性率(TPR,灵敏度)和假阳性率(FPR)在各种分类阈值之间的权衡,从而提供了对每个模型区分CAD和对照病例能力的洞察。AUC值作为评估整体模型性能的综合指标。

根据结果,k-NN算法达到了最高的AUC值0.99,表明出色的类别分离能力。ANN和SVM模型也表现良好,AUC值分别为0.98和0.95。NB模型达到了0.97的AUC,随后是LR的0.92和DT模型的0.91。尽管这些后者的模型表现出相对较低的AUC分数,但其辨别性能仍保持在临床应用的可接受范围内。

这些发现证实,k-NN、ANN和SVM等模型在区分CAD阳性和对照个体方面特别有效。ROC分析得出的AUC分数不仅突显了分类准确性,还突显了将这些模型整合到临床决策支持系统(CDSS)中的潜力。每个分类器的ROC曲线和相应的AUC值如图3所示。ROC分析进一步支持了这些发现。AUC值如下:k-NN=0.99,ANN=0.98,SVM=0.95,NB=0.97,LR=0.92,DT=0.91。根据这些指标,表现出最强辨别能力的三个模型是k-NN、ANN和SVM,AUC≥0.95,这与最近强调非线性分类器在CAD预测中的优越性的证据一致[12,14]。

尽管LR和DT表现出略低的AUC值(分别为0.92和0.91),但这些值仍处于筛查模型的临床可接受范围内,因为AUC>0.90通常被视为良好的诊断能力。ROC曲线说明了真阳性率如何在可接受的假阳性率下增加,确认了模型对临床决策支持系统(CDSSs)的适用性。

本研究评估的六种机器学习算法的性能指标如表7所示。结果是通过在完整数据集(n=300)上使用10折交叉验证获得的,其中每个数据点恰好一次作为验证数据,九次作为训练数据。所有预处理和超参数调优均在每个折内执行,以防止数据泄漏。

在10折交叉验证的每次迭代中,约90%的数据集用于训练,10%用于验证,确保每个样本对测试贡献一次,对训练贡献九次。预处理和超参数调优步骤(归一化、缩放和优化)在每个折内独立重复,以防止子集之间的数据泄漏。此程序通过将算法暴露于多个数据分区而不是单一的训练-测试分割,减轻了过拟合并提高了模型泛化能力[14]。表现最佳模型(k-NN,98.33%)与表现最差模型(DT,94%)之间的总体准确率差异仅为4.3%,证实了10折策略的稳健性和稳定性。

在模型中,k近邻(k-NN)实现了最高性能,准确率为98.33%,其次是支持向量机(SVM)96.67%和人工神经网络(ANN)95.00%。这些结果表明,在此数据集中,能够捕捉非线性关系的模型在区分CAD和非CAD患者方面更为成功。

逻辑回归(LR)也表现出强劲性能,准确率为91.67%,表明即使在线性模型中,当数据信息丰富且预处理良好时也可以有效。朴素贝叶斯(NB)和决策树(DT)的准确率分别为88.33%和86.00%,DT在六个模型中表现最低。

评估指标——准确率、精确度、召回率、F1分数和AUC——与预期模式一致,证实了非线性模型在CAD预测等复杂分类任务中的相对优势(表7)。

4. 讨论

本研究评估了整合人口统计学、人体测量学、生化和心理社会变量的分类模型的性能,使用机器学习算法实现更准确、快速和个性化的CAD诊断。CAD的高患病率和死亡率突显了在个人和公共卫生控制层面早期诊断和风险预测方法的关键需求。我们的发现表明,通过多层次数据整合开发的模型有可能提供比类似研究中报告的更全面的见解。整合人口统计学、人体测量学、生化和心理社会数据提供了每个患者风险概况的多维视图,与仅依赖传统风险因素的模型相比,可以实现更个性化的CAD预测[12,13]。这种多模态结构通过捕捉传统临床评估中可能不明显的代谢和行为变量之间的微妙变化,支持早期诊断[14]。在最近的研究中,结合甘油三酯-葡萄糖比值等代谢指数和人体测量特征显著提高了CAD分类性能[13]。因此,本研究采用的多层次数据整合策略与当前证据一致,强调了综合数据集在支持CAD早期和个性化风险分层方面的价值[12,14]。值得注意的是,k-NN、SVM和ANN以高准确率(分别为98.33%、96.67%和95.33%)和强大的AUC值(分别为0.99、0.95和0.98)脱颖而出,突显了它们在区分CAD与对照病例方面的有效性。

尽管CAD人群中亚组识别不是本研究的主要目标,但探索性分析揭示了代谢和人体测量特征的异质性,表明与肥胖、血脂异常和血糖状态相关的潜在表型簇。这种变异表明,未来整合无监督聚类的基于机器学习的分析可能有助于揭示隐藏的CAD亚型。与传统的临床风险工具(如Framingham风险评分或SCORE2)相比,本研究中使用的机器学习模型表现出卓越的辨别能力,特别是对于风险轮廓处于临界或混合的患者。这支持了数据驱动分类方法的临床相关性,这些方法整合了超越传统基于回归方法的复杂变量交互。

以往使用机器学习进行CAD预测的研究在该领域展示了有希望的进展。例如,Zhang等人(2024)报告称LR达到了0.981的AUROC,突显了年龄和TG水平作为预测因子的重要性[12]。同样,Mehmood等人(2024)使用集成投票分类器达到了99%的准确率,并强调了k-NN、SVM和LR的优越性能[41]。尽管使用了相对较小的数据集(n=300),我们的研究实现了相当甚至更高的性能,k-NN模型达到了0.99的AUC和98.33%。这种成功可归因于数据集的全面性,包括21项生化参数、人体测量指标和心理社会数据,以及使用10折交叉验证。然而,也必须承认大规模研究在泛化方面的优势[2]。

我们研究中最显著的方面之一是将所有人口统计学、生化和人体测量变量整合到单个模型中。尽管先前的报告指出,仅使用选定的特征子集可能会限制模型性能,但我们的结果表明,更广泛的数据集对模型准确性有积极贡献[1,42]。此外,通过应用特征选择将所有变量包含在模型中,允许数据正确运行,同时保留数据的丰富性,支持临床决策支持系统提供多维数据的需求[20,43]。

我们的研究揭示了腹部肥胖指标(腰围和臀围)、代谢参数(血糖、HbA1c、TG和LDL-C)与CAD(p<0.001)之间的强关联。这些发现与先前研究检查肥胖表型与心血管疾病之间关系的结果一致[3]。特别是,CAD组中低维生素B12水平的检测是一项新发现,表明代谢紊乱在CAD发病机制中的潜在作用。这一结果支持了文献中有限的研究,检查B12缺乏与心血管风险之间的关系[6]。然而,这种关系的因果关系和临床意义需要进一步调查。

关于甲状腺功能,CAD组的FT4水平显著低于对照组(p<0.001,表4)。这一发现表明,即使是FT3和TSH正常范围内的细微甲状腺激素变化也可能影响心血管风险。先前的研究报告了亚临床甲状腺功能障碍与冠心病之间的关联[44,45],支持了轻微甲状腺激素变化可能对CAD病理生理学有贡献的可能性。然而,排除患有明显甲状腺疾病的患者和有限的样本量需要谨慎解释。

此外,心理社会饮食行为(情绪化进食和饮食意识)与CAD风险之间的关系构成了我们研究的创新方面。尽管情绪化进食(均值:4.01±0.49)和饮食意识(均值:3.67±0.21)数据显示可能影响CAD个体代谢特征的行为因素,但这些数据对分类性能的贡献有限。这可能由心理社会量表的主观性质和个体反应差异为模型添加的噪声来解释。据报道,情绪化进食等行为因素与肥胖和心脏代谢风险相关[3],但将这些因素整合到机器学习模型中的研究尚未充分调查。

具体而言,CAD组的平均情绪化进食量表(EES)和正念进食问卷(MEQ)得分分别为19.3±5.4和24.7±6.1,对照组分别为15.2±5.1和29.8±5.9。12项生化参数(包括血糖、HbA1c、LDL-C、HDL-C、甘油三酯、肌酐和尿酸)与人体测量和心理社会变量一起整合,创建模型的输入特征集。虽然行为数据的添加引入了轻微噪声(反映在交叉验证准确率的方差略高),但它通过捕捉CAD风险的行为维度提高了模型的可解释性[14]。这些结果与表明压力相关或情绪化进食模式可能加剧代谢失调并增加心血管风险的研究一致[13,14]。

我们的结果显示,不进行选择地利用所有特征有助于保持数据多样性并提高模型性能。数据的丰富性促进了对照个体和CAD个体之间的准确区分。这表明,充分利用临床数据集中的信息,而不是通过特征选择缩小范围,可以最大化决策支持系统的潜力[19,42]。此外,我们的发现突显了在诊断CAD等复杂疾病时多学科数据整合的关键重要性,与之前关于综合数据预处理和整体数据利用策略的呼吁一致[20,46]。

我们研究的结果在揭示k-NN模型的卓越性能方面尤为显著,特别是与先前报告的指标相比。例如,尽管Abdar等人和Akella等人的结果表明SVM方法可以实现高准确率[1,42],但在我们的研究中,观察到k-NN模型具有更高的总体准确率和AUC值[19,43]。此外,与其他应用(LR、SVM、ANN、NB和DT)报告的性能观察到相似性;然而,NB和DT模型在患者类别上的边际间隔与先前文献中的发现平行[1,20]。

虽然k-NN和SVM模型实现了高灵敏度(TPR>96%),但对失败案例(特别是假阴性)的分析对于临床安全至关重要。错过的CAD病例(例如k-NN中的三名患者)可能代表具有非典型或临界表型的个体,如表现出轻度血脂异常、接近正常血糖水平或不太明显的腹部肥胖。这些患者可能超出模型捕获的主要特征模式[13,14]。

此外,这些黑箱算法的临床可解释性仍然是一个重大挑战。尽管我们的模型一致地确定血糖、LDL-C和腰围是关键预测因子,但在ANN或SVM等非线性模型中解释个体级别分类的原理仍然困难。为了提高透明度和临床适用性,未来工作应整合可解释AI(XAI)框架——如SHAP(SHapley Additive exPlanations)或LIME(Local Interpretable Model-Agnostic Explanations)——以可视化特征贡献并提高临床医生对基于机器学习的决策支持系统的信任[12,20]。

心理社会数据对分类性能的贡献有限。这可以解释为心理社会量表基于主观报告,个体反应差异可能在模型的数据输入中产生噪声。然而,据报道,情绪化进食等行为变量与肥胖和心脏代谢风险相关[3];因此,这些变量的潜在贡献应在进一步研究中通过更复杂的分析重新评估。除了情绪化和正念进食外,未来研究应考虑整合更广泛的饮食模式以及焦虑和抑郁等心理因素,这些因素可能进一步影响心脏代谢风险并改善行为成分建模。

我们研究中使用的NB和DT算法在患者类别的灵敏度方面表现较低。这一发现可归因于这些算法通常灵活性较低,对复杂和高维数据集的适应性较低。Jose等人(2024)报告称DT模型的AUC值低于LR,其在患者亚组中的分类性能有限[47]。

在模型性能比较方面,我们研究的另一显著发现是,尽管在模型中包含所有数据而不进行特征选择,但仍保持了高准确率水平。然而,因为这种方法可能通过增加模型复杂性导致过拟合,整合特征选择技术(如Boruta算法或SHAP分析)可能会增加模型的泛化能力[20],如文献中经常建议的[12]。

传统的临床风险评分——如Framingham风险评分[48]、SCORE2[49]或ASCVD风险评估器[50]——广泛用于心血管风险分层,但主要依赖于有限数量的人口统计学和生化变量。相比之下,机器学习(ML)模型可以同时分析更广泛特征中多维和非线性关系,包括心理社会和行为参数,无需预先分配权重。与传统评分不同,机器学习算法动态识别在基于回归方法中可能不明显的复杂模式,从而为CAD提供更个性化和可能更准确的预测。未来研究应直接比较机器学习模型与既定风险评分系统,以评估增量预测价值和临床适用性。

本研究的次要目标之一是探索饮食行为、代谢调节和CAD风险之间的相互作用。尽管心理社会变量(情绪化和正念进食)对分类性能的直接贡献有限,但它们的包含提供了对可能影响代谢结果的行为机制的洞察。两个量表都在土耳其人群中得到了验证[51]。已知情绪化进食与压力诱导的多食、胰岛素抵抗和中心性肥胖相关,而正念进食与改善的自我调节和代谢控制相关[52]。这种整合反映了在数据驱动的CAD预测框架内弥合行为和生理维度的探索性尝试。

局限性

本研究是单中心研究,样本量有限,这限制了研究结果的可推广性。在模型中包含所有变量而不进行特征选择可能增加了模型复杂性,并导致一些变量被不必要地包含在模型中。此外,仅使用了经典的监督算法,排除了集成和深度学习方法。

心理社会数据对分类的贡献是探索性的但有限,未单独分析。这些局限性可以通过在未来独立队列中开发具有更大和更平衡样本的模型来克服。此外,本研究中未考虑其他人口统计方面,如种族和民族,这些可能对CAD风险有重要影响。建议进行包括更多样化人群的未来研究,以进一步增强研究结果的可推广性。最后,由于本研究为回顾性设计,无法直接比较机器学习预测与心脏病专家评估。未来的前瞻性调查应旨在评估模型预测与专家临床判断之间的一致性,以进一步验证基于机器学习方法的诊断可靠性。

5. 结论

本研究评估了整合人口统计学、人体测量学、生化和心理社会变量的基于机器学习的分类模型在CAD预测中的性能。在测试的六种监督学习算法中,k-NN、SVM和ANN表现出最稳健的分类性能,准确率分别为98.33%、96.67%和95.33%,AUC值分别为0.99、0.95和0.98。这些发现突显了数据驱动方法的有效性,并强调了它们在个性化CAD预测中的潜在临床适用性。

这些强大的模型性能部分可以解释为包含了全面的代谢和人体测量变量,这些变量捕捉了CAD和非CAD个体之间细微但临床相关的差异。代谢指标,如升高的血糖、HbA1c、LDL-C、TG和腹部肥胖标志物(腰围和臀围),以及降低的维生素B12水平,与CAD存在显著相关(p<0.001)。这些结果与最近确定血糖、甘油三酯和TyG指数值为CAD关键代谢预测因子的证据一致[12,13],强化了代谢失调在疾病发病机制中的核心作用。

除了代谢预测因子外,行为和心理社会维度也有助于理解CAD风险。整合情绪化进食和正念进食变量为模型引入了新的行为层面。尽管它们对分类的统计贡献有限(可能由于自报告数据的主观性),但它们的包含通过将行为倾向与代谢结果联系起来,提供了患者风险概况更全面的表示[13,14]。将这些不同的数据领域整合到单一分析框架中,突显了多维建模在精准心脏病学中日益重要的地位。

虽然整合多样特征提高了模型可解释性,但某些算法——特别是朴素贝叶斯和决策树——在CAD类别上显示出较低的灵敏度。这一局限性可能源于它们捕捉复杂非线性关系和相互依赖变量的能力受限。然而,我们的发现表明,使用全面的特征集而不进行预先特征消除,提高了整体模型的稳健性和准确性,强调了多领域包含对数据驱动预测的好处。

总之,本研究证明机器学习模型,特别是k-NN、SVM和ANN,可以有效利用多维数据支持CAD的早期诊断和风险评估。整合代谢、人体测量和行为因素为开发旨在改善心血管健康结果的个性化、数据驱动的临床决策支持系统提供了有希望的机会。

数据库的大小和数据质量是机器学习性能的两个有效因素。未来研究将重点使用在医院合作收集的更大、多中心数据集验证开发的模型,以增强外部有效性并减少潜在偏差。此外,未来研究将旨在比较基于机器学习的模型与既定临床风险评估工具(如Framingham风险评分、SCORE2和ASCVD风险评估器)的预测性能。通过整合更大、更多样化的数据集,以及与传统诊断途径的基准测试,我们旨在开发更可推广、临床可解释和实际适用的CAD预测模型。

【全文结束】

猜你喜欢
  • 澳大利亚快速胸痛评估诊所中生物标志物对冠状动脉疾病检测的作用澳大利亚快速胸痛评估诊所中生物标志物对冠状动脉疾病检测的作用
  • 医学中的人工智能医学中的人工智能
  • 2026年心脏病和中风统计数据:美国心脏协会发布的美国及全球数据报告2026年心脏病和中风统计数据:美国心脏协会发布的美国及全球数据报告
  • 城市中树木而非草地与其他绿色植被与较低心脏病风险相关联城市中树木而非草地与其他绿色植被与较低心脏病风险相关联
  • 人工智能在医疗保健中的应用人工智能在医疗保健中的应用
  • 比尔·盖茨与OpenAI为何选择卢旺达开展5000万美元人工智能医疗健康倡议比尔·盖茨与OpenAI为何选择卢旺达开展5000万美元人工智能医疗健康倡议
  • 利用大数据和人工智能提升医师培训利用大数据和人工智能提升医师培训
  • 美国心脏病死亡人数下降但仍为头号死因:报告显示美国心脏病死亡人数下降但仍为头号死因:报告显示
  • 人工智能如何革新全球南方医疗保健人工智能如何革新全球南方医疗保健
  • 人工智能与精准医学人工智能与精准医学
热点资讯
全站热点
全站热文