摘要
心房颤动(AF)是一种与中风、心力衰竭和死亡风险增加相关的心律失常,因其间歇性和无症状特性导致诊断困难。传统方法如标准心电图(ECG)和延长心脏监测在成本、可及性和诊断效果方面存在局限性。人工智能(AI),特别是机器学习(ML)和深度学习,已成为通过高精度分析心电图数据检测和预测AF的有前景工具。AI模型可识别心电信号中指示AF的细微模式,即使在心律失常未发作时也能改善早期诊断和风险分层。此外,AI驱动的心电图分析已整合到可穿戴和移动健康设备中,将筛查能力扩展到临床环境之外。尽管研究表明AI的有效性,但数据偏差、模型在不同人群中的可靠性以及监管考虑等因素仍需解决。若克服这些障碍,AI有望通过早期检测、减少资源密集型监测需求和改善患者预后革新AF管理。
关键词:人工智能;心房颤动;心电图;检测;AI驱动心电图
1. 引言
由于人口老龄化和高血压、糖尿病和肥胖等风险因素增加,AF的患病率正在上升。2021年,AF成为全球最普遍的心律失常,影响了5255万人。仅在美国,估计有300万至600万人患有AF,预计到2050年这一数字将上升到600万至1600万。同样,在欧洲,2010年的患病率约为900万,预计到2060年将达到1400万。
AF是中风、心力衰竭和整体心血管死亡的主要贡献者,使其及时检测成为有效管理的关键。然而,由于其经常无症状和阵发性性质,AF诊断仍然具有挑战性。许多患者经历间歇性发作,在常规临床评估中可能未被捕捉,导致诊断不足和干预延迟。AF检测主要依赖于使用12导联记录、动态心电图监测仪和植入式循环记录仪的心电图。虽然有效,但这些方法存在显著的局限性。在阵发性心房颤动患者中,单次ECG在例行临床访问期间在64%的病例中检测到AF,因此,迫切需要更高效、更经济的AF筛查和诊断工具。
人工智能在心脏病学中具有前景,尤其是对于已出现的AF,能够实现高效的检测和预测。通过利用机器学习和深度学习技术,AI可以分析大量的心电信号数据集,检测人类临床医生可能察觉不到的模式。AI在心脏病学领域发展迅速,以提高效率(参见第1.1节)。AI模型可以以高精度处理12导联心电图和单导联可穿戴设备记录,允许更可靠地识别AF。此外,AI驱动的心电图分析可以超越检测到预测,识别出在AF/血栓形成事件发生前的高风险人群。这种预测能力对于指导高风险人群的早期干预特别有价值,例如有不明原因中风史的人群。
尽管前景光明,将AI整合到AF检测和管理中仍面临挑战。AI模型需要在多样化的数据集上进行广泛的训练,以确保它们在不同患者人群中可靠地表现。算法偏见、临床验证和监管批准等问题必须在AI驱动的AF检测在医疗环境中广泛实施之前得到解决。此外,确保AI的可解释性以及获得临床医生和患者的信任是成功采用的关键。
1.1. 历史视角
过去十年间,AI在AF检测和监测方面的发展取得了显著进展(见表1)。最初应用有限,随着深度学习技术的引入,AI应用迅速发展,使标准心电图能够在窦性心律下准确识别AF。这一突破提高了早期和无症状AF的检测。AI整合到可穿戴设备中进一步增强了实时、持续的心律监测,允许大规模人群筛查。这些技术展示了高预测价值,并开辟了在传统临床环境之外进行及时和可及AF诊断的新可能性。很快,多个模型和非常大的数据集开始与AI集成,进一步增强了检测和监测能力。
表1. 2013年至2023年间AI演变的汇总时间表
1.2. AF的机制和病理生理学
为了理解AI如何检测AF,必须讨论AF的病理生理学。AF是一种复杂的心律失常,源于心房的结构和电异常,导致紊乱和快速的电冲动。几个因素导致这些混乱脉冲的产生:
- 焦点和异位脉冲生成:紊乱的电脉冲可以从异位部位产生,最常见于肺静脉内,引发AF发作。这些病灶由心肌细胞组成,这些细胞在发育过程中形成,因为肺静脉最初是原始左心房的延伸。
- 电重组电流:在正常情况下,电脉冲以有序的方式在心房中传播。然而,一旦AF被触发,异常的电脉冲由于动作电位和不应期的缩短而通过传播的再入电路维持,这种传播是混乱的。这些再入电流被描述为螺旋状,导致心房的广泛收缩。
- 电重塑:持续的AF允许心房的电通路重塑。重塑包括L型钙通道的减少,导致动作电位和不应期缩短。此外,内向钾电流的增加增强了复极化,进一步缩短了不应期。此外,钠通道的下调减慢了传导速度,增加了再入电流的可能性。
因此,AF是由各种相互作用的因素驱动的多因素心律失常。这些因素创造了自我维持的无序心房收缩周期,使病情逐步恶化。检测这些异常的电模式对于有效的AF诊断和治疗至关重要。心电图通常用于识别这种中断,而人工智能可以增强心电图解释,提高预测能力和诊断准确性。
1.3. AI在AF检测和预测中的应用
在AF研究中,术语检测指的是使用当前心电图或光电容积描记法(PPG)记录识别活跃发作期间的AF,提供即时的诊断价值。相比之下,预测则侧重于评估患者未来发生AF的风险,通常通过分析窦性心律期间记录的心电图数据。这一区别很重要:检测为实时临床决策提供信息,而预测则支持早期干预和长期管理策略。
AI通过分析传统的心电生理标志和更复杂的亚临床模式来检测心电图上的AF。它评估不规则的R-R间隔和缺乏一致的P波,这是AF的标志性特征。AI算法,特别是那些使用深度学习的算法,还可以识别细微特征,如低振幅颤动波、T波形态的变化以及窦性节律期间可能预示未来AF发作的隐藏信号。此外,AI利用熵等非线性度量和信号复杂性的其他数学描述符来区分AF与其他心律失常或噪声。
准确的心房颤动检测,特别是使用可穿戴和移动设备,依赖于预处理方法,这些方法可以最大限度地减少噪声和运动伪影的影响,这些会影响信号完整性。带通滤波(通常为0.5-40 Hz用于心电图和0.5-8 Hz用于PPG)通常用于消除基线漂移和高频干扰。自适应阈值处理通过在信号条件变化时调整灵敏度水平,进一步提高了检测的可靠性,确保即使在存在噪声的情况下也能可靠地识别心脏特征。为了确保分析质量,信号质量评估(SQA)技术(如评估峰度、功率比或模板相关性)用于检测和排除信号质量差的段落。此外,独立成分分析、经验模态分解和基于加速度计数据的运动伪影校正等先进信号处理策略越来越多地集成到AI管道中,以在真实世界条件下提高性能。这些预处理措施对于为AI模型提供干净、高质量的输入数据至关重要,从而支持在不同环境和患者群体中进行准确且可推广的AF检测。
一种最有前途的技术是将卷积神经网络(CNNs)应用于心电图。这种方法使用传统的心电图记录,通常持续10至12秒,来检测潜在的AF发作,从而能够识别即使心脏处于正常窦性节律时的AF相关模式。在明显正常窦性节律期间预测AF可能使医生能够通过优化治疗来预测并减少未来发作的风险。虽然许多模型(见表2)依赖于CNNs,但近年来也出现了其他模型的发展,这些模型要么在算法中整合了CNNs,要么构成了一种全新的模型。
表2. 最突出和研究最多的可用于AF检测的模型/技术
2. 使用AI进行AF检测的进展和优势
AI在检测和预测AF方面的整合取得了显著进展。深度学习算法在分析心电图数据方面的效率相比传统诊断方法有了显著提高。例如,Ahmad等人通过将CNNs应用于12导联心电图,AI能够根据窦性节律的微妙变化历史来检测AF风险。最初设计用于识别普通人群中隐性AF的AI心电图(AI-ECG)工具显示出识别高风险AF个体或检测可能在特定个体中未被诊断病例的潜力。Christopoulos等人的研究进一步支持了这种方法的有效性,表明AI-ECG算法可以成功预测无AF病史个体的AF发展。
可穿戴和手持技术(见图1),包括智能手表和Amazfit健康手环1S(华米科技,中国安徽)——一种带有单通道心电图记录器和高精度PPG光学传感器的手腕佩戴设备——在AF检测中变得越来越重要。单导联心电图功能在激活设备时记录60秒的轨迹。当佩戴在左腕上并将右手放在环指外侧时,读数反映肢体I导联。这些AI驱动的可穿戴设备使连续监测成为可能,通过减少假阳性和假阴性来提高AF检测的准确性。尽管检测无症状AF在不可预测的静默发作和抗凝治疗方面仍是一个挑战,但成本效益高的可穿戴解决方案使长期筛查对健康个体和高风险人群都变得可行。使用智能手机获取信号时,将摄像头镜头和发光二极管(LED)与食指指尖对齐。录制五分钟后,从光信号的绿色光谱中提取脉搏波。R-R间隔自动检测。一项系统综述和荟萃分析检查了基于智能手机摄像头的PPG应用与标准心电图在AF检测中的诊断准确性。该分析涵盖28项研究,共11,404名参与者,其中2950人患有AF。综合灵敏度为94%(95% CI 92%至95%),特异性为97%(95% CI 96%至98%),显示基于智能手机的PPG技术可以可靠地以高准确性识别AF;然而,它也面临一些局限性,如外周灌注不良、运动伪影和震颤。
图1. 使用AI检测AF的设备总结。(使用www.canva.com制作)
此外,AI模型(见表2)已被证明在分析大数据集以提高AF检测准确性方面有效。这些模型经过训练,能够在内部验证期间识别特定概率阈值,并在测试数据集中应用它们,显著提高AF检测。机器学习还有助于识别AF的关键风险因素,如年龄、高血压和肥胖,这有助于早期诊断。AI在识别隐源性中风患者中先前未检测到的AF的能力是另一个重要进展。Attia等人强调了先进计算模型和大数据集在增强AF诊断和治疗方面的潜力。研究包括梅奥诊所1993年12月31日至2017年7月21日期间18岁以上的患者的所有心电图记录,共计180,922名患者和649,931份心电图。其中,126,526名患者和454,789份心电图用于训练算法/AI进行检测,64,340份心电图来自18,116名患者用于内部验证测试。通过检测P波振幅差异等微小异常和非常微小的R-R波变异性,该模型成功识别了3051名确诊AF的患者。
AI可以根据窦性节律心电图识别出未来患AF风险较高的个体,从而降低风险并预防未来的并发症。与传统诊断方法相比,AI模型通常表现出更高的灵敏度和特异性,从而提高诊断准确性。通过AI的实时监测还促进了更快的医疗干预,使AF病例管理更加便捷。
一种基于人工智能的心电图模型已被证明在隐源性中风患者中识别隐性AF的有效性。通过分析窦性节律期间记录的心电图,AI-ECG能够区分隐源性中风患者和已有中风原因的患者。一个病例报告展示了AI-ECG在反复发作隐源性中风患者中的实用性。患者的重复心电图和心脏监测显示窦性节律;回顾性AI-ECG分析早在患者首次血栓栓塞事件前12年就识别出AF风险的高可能性。这个案例突出了AI-ECG在早期AF风险检测中的潜力,强化了对高风险人群进行主动监测和预防策略的重要性,并影响隐源性中风情况下的临床决策,提出了一个关于这种高风险模式在健康人群中能多频繁地被检测到的问题。一项评估设计用于检测隐源性中风患者先前未诊断的阵发性AF的AI模型的评估显示,使用窦性节律心电图具有很强的诊断准确性。该模型在添加临床变量后,AUC从0.806提高到0.880。这些发现表明,AI驱动的检测可以通过促进早期干预和改善隐源性中风患者的二级预防策略来显著改善患者预后。在Wu等人的研究中,堆叠集成学习方法达到了92%的整体准确率、88%的灵敏度和96%的阳性预测值。鉴于其高灵敏度,该方法推荐用于大规模AF筛查,有效识别88%的AF病例,同时以96%的准确率区分健康个体。然而,在现实世界环境中的表现可能因人群特征和心电图采集质量而异。此外,AI驱动的模型可能潜在地减少频繁医院就诊的需求,降低医疗成本,同时实现个性化的AF患者管理。这些模型可以根据个体的具体风险状况定制治疗策略,确保更有针对性的干预措施。尽管取得了一些进展,诊断阵发性AF仍然具有挑战性,如统计性能结果所示。节律可能与正常窦性节律非常相似。同时训练多个模型的集成学习技术为此问题提供了解决方案,提高了诊断性能。Bagging、AdaBoost和堆叠等技术在提高AF检测准确性方面均显示出前景。
3. 在AF检测中使用AI的挑战和劣势
基于AI的系统的一个主要关注点是误诊的可能性,这可能导致不必要的焦虑;相反,由于假阳性和假阴性,漏诊AF的情况也可能发生。Dupulthys等人确定了心电图-AI工具中AI模型的两个关键限制。首先,这些工具尚未评估AF负担,这对于理解AF对患者和治疗决策的影响至关重要。其次,尽管指南建议30秒的心电图记录,但该研究仅使用了10秒的记录,这对预测的准确性提出了质疑。另一个限制是心电图质量的可变性,这会降低诊断准确性。Gahungu等人指出,将低质量的心电图包含在数据集中可能导致特异性降低,因为AI模型可能会误分类非AF心律失常、窦性停顿和阻塞性睡眠呼吸暂停患者中常见的异位搏动,而阻塞性睡眠呼吸暂停是已知的AF原因。值得注意的是,睡眠呼吸暂停本身是AF的已知危险因素。在临床实践中实施AI还需要大量的资金投入和获取高质量、多样化数据集的能力。尽管一些医疗专业人员不愿完全依赖AI诊断,但也存在关于数据隐私、知情同意和误诊情况下责任的问题。
尽管最近取得了进展,AI模型在确保不同人群中有效性方面仍面临挑战。在非代表性数据集上训练的AI算法可能在不同群体中表现不佳(参见第5节),这可能导致假阳性和假阴性导致的误诊。虽然可穿戴设备(包括使用PPG传感器的智能手机和智能手表)是可访问的,但它们容易因信号质量、组织灌注、运动、照明条件和传感器放置等因素而不准确。一种名为ArNet2的深度学习模型被开发用于检测长期心电图记录中的AF。研究人员测试了该模型在不同群体中的表现,包括不同种族、年龄范围和性别。虽然ArNet2整体表现良好,但在不同人口统计群体中的准确性存在明显差异。这些差异主要与某些人群中的心房扑动发生率较高有关,表明训练数据不具代表性时会出现局限性。在评估AF检测的AI工具时,选择正确的评估指标尤其重要,特别是对于AF事件相对较少的不平衡数据集。常见的指标如准确率和AUC可能无法完整呈现这些情况。为了更好地了解模型性能,建议包括阳性预测值(PPV)、灵敏度、特异性、F1分数和精确-召回曲线等指标。
为了建立更可靠和一致的AF检测AI基方法,重要的是要有标注良好、标准化的数据集,并通过前瞻性临床试验验证这些模型。可穿戴技术,如补丁监测器和智能手表,也在产生重大影响——它们提供了一种经济、无创的持续筛查AF的方法。这对于高风险人群尤其有用,例如手术后恢复的人或已经被诊断为AF的人。这些AI启用的可穿戴设备允许长期被动监测,提供了管理AF的便捷解决方案。不过,还需要更多的验证研究。展望未来,研究应集中在标准化研究方法、确保正确的数据标注和保护患者隐私上。AI训练需要访问大规模临床数据集,这引发了关于数据隐私和法律合规性的担忧。医疗专业人员对依赖AI进行临床决策的怀疑态度也可能阻碍AI驱动工具的广泛采用。严格的监管批准和伦理考虑,特别是在AI在关键医疗决策中的作用方面,代表了重大挑战。将AI生成的解释与受过培训的医疗专业人员的评估结合起来,可以帮助降低过度依赖AI进行诊断的风险。研究表明,虽然基于AI的心电图分析可以提供有用的见解,但目前计算机生成的读数仍有其局限性。这就是为什么专家审查如此重要:它增加了关键的监督层,有助于避免潜在的误诊。由于这些AI工具的广泛可用性和价格实惠,它们也非常适合大规模筛查工作。
4. 对比分析
本研究中回顾的大多数模型都显示出高灵敏度(高达98.1%),这反映了它们正确检测真阳性病例的能力;这对于识别实际患者很重要。特异性达到98.1%,表明模型避免假阳性的能力,确保健康个体不会被误诊。准确度报告高达96.32%,衡量了模型在正负预测中的总体正确性。虽然心血管AI诊断中没有普遍认可的灵敏度、特异性和准确度基准,但回顾的大多数研究报告的值均超过80%(见表3)。这表明,大约80%的性能阈值通常被认为在这一领域是可以接受的。
表3. 用于AF检测的各种AI模型和技术的性能总结和比较。
最强的性能来自使用深度学习CNN和PPG-AI算法的模型,所有模型的灵敏度和特异性均超过94%(Biton等人[24]中的男性读数除外),表明可靠检测和低误报率。基于智能手机和可穿戴设备的方法也显示出前景,尽管准确性变化更大。
一些研究中使用的模型显示出比其他模型更低的灵敏度、特异性和准确性;这些差异可以归因于每项研究方法的差异,如人口统计学、震颤、外周灌注不良和其他可能影响心电图记录的不受控变量。
5. 人口统计分析
人口统计分析在评估用于检测AF的AI模型的有效性和普遍性方面起着关键作用,这些模型旨在在不同的人口亚组中发挥作用。年龄、性别、种族和潜在合并症的变化可以影响AF的发病率以及诊断工具(如心电图)捕获的电生理特征。因此,主要在一个群体上训练的AI模型在应用于其他群体时可能表现不佳或产生偏差,可能加剧健康差异[12,13,24]。
表4. 本综述中分析的各种研究中进行的人口统计分析的最重要结果。
通过在模型开发和验证过程中系统地收集和分析人口统计数据,研究人员可以识别性能差距,并调整算法以提高所有相关群体的灵敏度和特异性。例如,年龄相关的传导变化或性别特异性的AF表现差异可能需要AI结合不同的特征或阈值以实现准确检测[24,26]。同样,训练数据集中的种族和种族多样性确保AI工具对人群异质性具有鲁棒性,并能提供公平的诊断准确性[25]。
6. 经济分析
PULsE-AI试验评估了在初级护理环境中使用机器学习风险预测算法和诊断测试来识别未诊断AF的成本效益。该研究于2019年6月至2021年2月在英格兰的六家普通诊所进行,估计实施这种筛查策略可以在330万高风险人群中增加45,493例新的AF诊断。这种方法与每增加一个质量调整生命年(QALY)的增量成本效益比(ICER)为3994英镑,远低于英国接受的每QALY 20,000英镑的阈值,表明具有成本效益[29]。
7. 伦理考虑
用于AF检测的AI模型,特别是那些从ECG数据中得出的模型,如Attia等人[8]、Christopoulos等人[7]和Dupulthys等人[12]所开发的模型,依赖于大规模患者数据集,这些数据集本质上包含敏感健康信息。确保患者隐私和维护强大的数据安全是至关重要的问题,特别是当这些模型整合到可穿戴设备或远程监测工具中时,正如Gill等人[11]所讨论的那样。透明和全面的知情同意协议至关重要,特别是当患者数据被重新用于超出最初收集范围的二次研究时。
此外,机器学习模型的复杂性引发了可解释性的挑战。给定诊断的原理可能很难让临床医生和患者理解,这可能导致对算法输出的过度依赖,而缺乏足够的背景洞察。尽管Attia等人[8]提出的一些模型试图通过显著图等技术改进可解释性,但这些方法仍无法实现完全透明。这种障碍可能会削弱医患关系的信任,并在误诊或受AI生成结果影响的不当治疗决策时引发重大责任问题。
8. 未来与展望
AI在检测和管理AF的未来正朝着使用多类型数据的方向发展。通过整合这些不同的数据源,AI模型可以提供更精确和个性化的风险评估。将这些算法直接整合到自动化ECG解读中,还可以在患者就诊期间实现实时AF风险检测,帮助医生做出更快、更明智的决策。然而,为了确保这些工具的准确性,并避免无意中导致健康差距,必须在多样化人群中对其进行训练和测试,如表2所示[30]。
一些当前正在开发的技术,例如基于Poincaré图的方法,提供了一种创新的方式来可视化心率变异性,通过将每个RR间隔与其前一个间隔绘制出来。这种方法捕捉了心律不规则性的动态逐拍结构,尤其在原始ECG波形不可用、嘈杂或难以处理的条件下非常有用——这些条件在可穿戴设备或资源有限的环境中很常见。越来越多的研究人员将这些Poincaré图转换为二维灰度图像,使卷积神经网络(CNNs)能够学习RR间隔分布的空间和几何模式[31]。
Bashar等人[31]详细描述了这种方法的实现。首先,从ECG信号中提取RR间隔,并使用每对连续间隔(RRn, RRn−1)构建Poincaré图(一个捕捉心律变异性的散点图)。然后将这些图转换为基于像素的二维灰度图像,其中每个点代表一个心跳对,整体分布编码心律结构。在窦性心律情况下,生成的图像通常形成一个紧密的椭圆簇,而在心房颤动情况下,分布变得高度分散和混乱。
这些图像表示作为CNN的直接输入,CNN经过训练以识别心律失常与正常心律的视觉特征。CNN因此能够识别R-R间隔变异性中的复杂非线性关系,而无需依赖原始波形数据。这种特征提取方法使深度学习模型即使在传统信号处理方法受限于噪声、运动伪影或短ECG片段的情况下也能进行准确分类。因此,基于Poincaré的CNN输入不仅是一种有效的心律分类方法,也是一种对噪声具有弹性的替代方法,可以在具有挑战性的环境中增强AF检测[31]。
此外,近期在临床AI系统方面的进展,特别是那些专注于从ECG数据预测AF的进展,越来越多地整合联邦学习和可解释性人工智能以应对数据隐私和临床信任的关键挑战。联邦学习,如Alreshidi等人[28]所探讨的那样,使多家医院或机构能够协作训练AI模型,而无需直接共享敏感患者数据——从而在保持模型准确性的同时保护隐私。同时,可解释性AI技术如显著图(在Attia等人[8]中使用)正在被应用,以通过突出影响模型诊断的ECG片段来提高透明度。这些方法旨在弥合AI系统与临床决策之间的差距,支持在医疗环境中更可解释和符合伦理的机器学习工具部署。
此外,未来在AF检测中使用AI的研究必须优先包括全面的人口统计数据集,并实施优化模型性能的策略(见表4)。通过人口统计分层优化AI模型不仅增强了临床效用,还通过减少易感人群的误诊风险建立了临床医生和患者的信任。此外,透明报告的人口统计分析对于监管批准、伦理问责和促进AI在临床环境中的更广泛采用至关重要[4,8]。
9. 结论
根据文献综述,AI有望彻底改变AF的检测、预测和管理。通过利用先进的机器学习和深度学习技术,AI可以以极高的灵敏度和特异性分析传统和可穿戴设备的ECG数据,甚至可以在正常窦性节律期间识别高风险患者。这种早期和准确的检测创造了主动干预的机会,可能减少中风、心力衰竭和其他AF相关并发症的负担。此外,将AI整合到可穿戴技术中可以实现超越临床环境的持续、经济高效监测,使心血管护理更加普及。
然而,尽管取得了这些有希望的发展,仍然存在重大挑战。数据偏差、ECG质量的可变性、在不同人群中的普遍适用性,以及监管和伦理问题必须得到仔细解决,以确保安全、公平的部署。未来的研究应集中在提高AI模型的透明度、通过前瞻性临床试验验证性能,并确保患者数据隐私。将AI驱动的分析与专家临床监督相结合将是最大化效益和减轻风险的关键。随着不断的完善,AI不仅有望增强早期AF检测和风险分层,还将从根本上重塑预防心脏病学,最终改善患者结果和提高医疗系统的效率。
此外,目前的文献在方法论严谨性方面缺乏一致性,特别是关于前瞻性、多中心临床试验。大多数研究依赖回顾性数据或单中心队列,这限制了其发现的普遍适用性和临床适用性。为了确保AI工具在不同人群中安全、有效和公平地应用,迫切需要一个标准化的验证框架。这种框架应包括前瞻性研究设计、多中心合作、多样化患者人群和透明的报告标准。建立这一基础对于将AI技术从有前景的研究工具转变为可信的临床解决方案至关重要,从而在抗击心房颤动的战斗中发挥重要作用。
【全文结束】

