GPT-4o驱动框架在电子健康记录中识别认知障碍阶段的研究A GPT-4o-powered framework for identifying cognitive impairment stages in electronic health records

环球医讯 / 认知障碍来源:www.nature.com美国 - 英文2025-07-16 02:54:37 - 阅读时长16分钟 - 7679字
本研究开发了一种基于GPT-4o的框架,利用电子健康记录中的纵向患者历史总结、多步推理和置信度感知决策,实现了对认知障碍阶段的高精度分类,为临床诊断提供了有力支持,并探讨了其在未来医疗实践中的潜在应用价值。
电子健康记录认知障碍GPT-4o框架轻度认知障碍痴呆临床诊断全球CDR评分置信水平误分类因素AI代理
GPT-4o驱动框架在电子健康记录中识别认知障碍阶段的研究

阿尔茨海默病及相关痴呆(ADRD)是21世纪的重大公共卫生挑战,迫切需要准确且可扩展的工具来检测认知障碍(CI)。电子健康记录(EHR)包含大量有价值的认知健康数据,但许多信息嵌套在非结构化的临床笔记中。为了解决这一问题,我们开发了一种基于GPT-4o的框架,用于CI阶段分类,结合纵向患者历史总结、多步推理和置信度感知决策。该框架在来自Mass General Brigham(MGB)的165,926份临床笔记中进行了评估,涉及1002名Medicare患者,结果显示其在CI阶段分类方面具有高准确性(加权Cohen's kappa = 0.95,Spearman相关性 = 0.93),并优于其他两种语言模型(加权Cohen's kappa 0.82–0.85)。此外,该框架在独立数据集上对769名记忆诊所患者的临床痴呆评分(CDR)分配也表现出色(加权Cohen's kappa = 0.83)。最后,为了确保可靠性和安全性,我们设计了一个集成GPT-4o框架和临床医生监督的交互式AI代理,这种协作方法有望在现实临床环境中促进CI诊断。

研究数据集

我们使用了来自Moura等人先前研究的数据集,其中包括1002名患者,这些患者分为三组:(1) EHR中有至少一个痴呆相关ICD-10诊断代码的患者;(2) 至少看过一次痴呆相关专科医生但没有诊断代码的患者;(3) 不符合上述条件的患者。每名患者的EHR数据在2016年1月1日至2018年12月31日期间由专家医师进行审查,以筛查认知问题(即任何记录的记忆或认知能力下降的怀疑/担忧)。患者还被分配了综合征诊断:“无MCI或痴呆诊断(正常)”、“正常 vs. MCI”、“MCI”、“MCI vs. 痴呆”、“痴呆”、“未知”。综合征诊断附有1-4的置信水平,以反映诊断的确信程度:1 = 完全不确信(几乎是在猜测),2 = 轻度确信,3 = 中度确信,4 = 高度确信。排除了“正常 vs. MCI”和“MCI vs. 痴呆”两类边界病例后,最终得到三类:CU(正常)、MCI和痴呆,共814名患者。在第二次实验中,所有五个诊断类别均包括在内,形成了904名患者的数据集。

我们还评估了GPT-4o框架在自动分配全球CDR方面的潜力,使用了2016年2月至2019年7月期间在MGB记忆诊所就诊的769名独特患者的访问笔记数据集。这些患者同意成为登记的一部分,记录了他们就诊时的全球CDR评分和诊断,以及其他数据。为了构建评估数据集,我们将数据限制在MGB记忆诊所的办公室访问和远程医疗接触,并选择了每位独特患者的最新笔记,以确保每个个体只有一个代表性条目。我们过滤掉了任何缺少文本的接触。由于这些记忆专家笔记包含详细的认知评估信息,我们的目标是评估是否可以自动生成更详细认知分期的结构化数据集,以匹配专家临床医生的全球CDR评分。

表1展示了两个研究数据集中患者的基线特征。对于CI阶段分类(表1a),经过筛选后的最终队列包括814名Medicare按服务收费患者,其中528名(64.9%)归类为CU(正常),62名(7.6%)患有MCI,224名(27.5%)患有痴呆。平均年龄从CU(正常)组的74.8岁增加到痴呆组的82.1岁。包括所有五个诊断类别——CU(正常)、正常 vs. MCI、MCI、MCI vs. 痴呆和痴呆——的第二次实验的人口统计学和临床特征见补充表1。对于分配全球CDR(表1b),数据集包括769名独特患者的最新访问笔记,人口统计学按全球CDR评分(0、0.5、1、2、3)分层。

GPT-4o框架的开发及在CI阶段分类中的评估

我们设计了一种端到端的GPT-4o方法,整合了多笔记总结和结构化多步推理,以支持长期患者历史跟踪和多次临床接触评估的认知诊断,并将其与其他三种框架进行了比较(图1)。我们的框架在两个关键阶段处理来自EHR的非结构化临床笔记。首先,将每个患者的全部可用临床笔记汇总并分割成较小的片段,确保全面覆盖同时遵守令牌限制。通过多笔记总结,GPT-4o生成这些笔记片段的简洁表示,捕捉每个时间点的关键认知和诊断细节。然后,这些中间总结进一步提炼成一个“总结的总结”,使模型能够整合纵向信息并保持上下文连贯性。这个结构化总结作为GPT-4o最终分类的基础,推断出CI阶段——认知未受损(CU)、轻度认知障碍(MCI)或痴呆——以及相关的置信水平。通过实施这种两步总结策略,我们的框架增强了GPT-4o跟踪复杂患者历史、进行多步推理并在多次接触中利用长期记忆的能力。提示和相应响应的详细示例见补充说明1a(总结)和补充说明1b(分类)。

图2a展示了我们的GPT-4o框架在CI阶段分类中的混淆矩阵,表明实际标签和GPT-4o生成标签之间有很强的一致性。框架在CI阶段分类上的整体加权kappa评分为0.95。在被框架正确识别为认知受损(MCI或痴呆)的260名患者中,有58名(22.3%)没有痴呆相关的诊断代码。此外,CI阶段分类的每类性能指标见补充表2。裁定者的信心评分在MCI(平均=2.52)相比CU(3.22)和痴呆(3.63)显著较低,证实了此类别的诊断不确定性(Kruskal-Wallis H = 84.95,p < 0.001)。

图2:GPT-4o框架的性能和置信度分析

图2a 框架性能:混淆矩阵比较实际与GPT-4o预测的认知障碍(CI)阶段:CU、MCI、痴呆。较深的颜色表示更高的计数。图2b 根据医生信心评分分层的性能分析:根据医生信心水平分层的加权Cohen's Kappa评分条形图。较高的信心评分(3和4)对应于更大的真实情况一致性。图2c 医生与GPT-4o信心评分的比较:热图比较医生与GPT-4o分配的信心水平。较深的颜色表示更高的案例计数。缩写:CU 认知未受损,MCI 轻度认知障碍。

不同嵌入和大型语言模型在CI阶段分类中的性能比较

我们在十折交叉验证中比较了四个框架的性能,使用加权Cohen's Kappa作为评估指标(图3a)。这些模型分别是USE框架(基于关键词的句子提取 + USE模型 + XGBoost分类)、DementiaBERT框架(基于关键词的句子提取 + DementiaBERT嵌入 + XGBoost分类)、混合框架(GPT-4o生成的摘要 + DementiaBERT嵌入 + XGBoost分类)和我们的GPT-4o框架(见图1和方法部分)。总体而言,所有框架在各折中均表现出强大且一致的性能,Cohen's Kappa值大多高于0.80,表明与专家医师标注的综合征诊断高度一致。在这四个框架中,GPT-4o框架在几乎所有折中始终表现出最高的性能,表明我们的框架在一致性方面持续优于其他框架。这表明端到端的GPT-4o方法在总结和分类中捕获了临床笔记中的细微认知状态信息。两个基于DementiaBERT的框架也表现出色。具体而言,DementiaBERT框架使用与USE框架相同的预处理方法和分类器,但在大多数折中表现优于USE框架,表明经过领域特定微调的DementiaBERT作为嵌入模型比通用USE模型更能捕捉提取句子的有意义表示。此外,虽然DementiaBERT框架和混合框架都基于DementiaBERT,但使用GPT-4o摘要而非传统句子提取的混合框架在大多数折中表现出显著改进,进一步突显了GPT-4o的有效总结能力。总之,结果表明GPT-4o框架始终取得最高性能,其次是经过领域特定微调的DementiaBERT框架,而USE模型的表现相对较低。

鉴于GPT-4o框架在识别CI阶段方面的强劲表现,我们进一步评估了其在分配全球CDR方面的潜力,这是一个更复杂的任务,需要详细评估六个领域的认知和功能表现。为应对这种复杂性,我们探索了高级GPT提示工程和检索增强生成(RAG)技术,以优化框架捕获信息以分配全球CDR的能力。图4a-c展示了三种方法的标准化混淆矩阵,说明了每种方法的实际和预测CDR评分之间的协议和错误分类(基于计数的混淆矩阵见补充图2)。在所有方法中,GPT-4o框架始终预测的CDR评分高于实际情况。框架在三种不同提示和增强方法下的加权Cohen's Kappa得分分别为0.79、0.80和0.83:结构化答案模板、启用RAG和带有领域计数的信心水平(图4d)。这些方法的Spearman相关系数分别为0.81、0.81和0.83,而MSE值分别为0.12、0.11和0.10。尽管仍有一些错误,GPT-4o框架在分配全球CDR方面的表现是一致且稳健的,综合展示了其在处理有序分类方面的有效性。此外,性能趋势在实验中保持一致,表明在一个指标上的改进会在其他指标上得到反映。我们还在补充表4中包含了详细的每类性能指标。通过对提示生成的GPT-4o信心水平进行分层分析,发现高信心决策的加权Cohen's Kappa得分最高,而低或中等信心预测的值较低,这是预期的结果(低:0.40;中等:0.56;高:0.84)。有趣的是,GPT-4o表现出“过度自信”,超过三分之二的预测(n = 618)被评为高信心,只有少数(n = 2)被评为低信心。提示和相应响应的详细示例见补充说明2a(结构化指导下的GPT-4o)、补充说明2b(启用RAG的GPT-4o)和补充说明2c(带有领域计数和信心水平的GPT-4o)。

图4:GPT-4o框架在分配全球CDR中的性能和统计分析

图4a-c:三种基于GPT-4o的方法在认知障碍分期中的标准化混淆矩阵:a GPT-4o结构化指导,b 启用RAG的GPT-4o,c 带有信心水平和领域计数的GPT-4o;每个矩阵显示每行中实际与预测CDR评分的比例,颜色越深表示比例越高。行标准化为总和为1。图4d 多指标评估模型分配全球CDR的性能:总结模型在多个评估指标下的性能表格——Cohen's Kappa得分、Spearman秩相关系数和Baccianella调整的MSE。图4e CDR领域与GPT-4o在分配全球CDR中的信心水平之间的关联:显示CDR领域(二元变量表示领域在笔记中记录)与GPT-4o在分配全球CDR中的信心水平(中等,高)之间的统计关联的表格。β系数表示每个领域的影响大小及其标准误差和p值。

最后,我们调查了访问笔记中六个CDR领域的记录与GPT-4o在分配全球CDR时的信心水平(中等,高)之间的关联,使用单个逻辑回归模型,以六个领域为预测变量。图4e显示了GPT-4o在分配全球CDR时的信心水平中CDR领域的系数。定向、判断和解决问题,以及家庭和爱好领域在确定模型信心方面发挥了更重要的作用。值得注意的是,记忆领域的系数在统计上不显著(p > 0.05),并且显示出异常大的标准误差。进一步分析揭示了准完全分离:几乎所有的提到记忆的笔记都对应于高信心预测。为了解决这个问题,我们应用了Lasso惩罚逻辑回归。记忆系数大幅减少——表明由于分离而不稳定——但仍高于其他系数。重要的是,其他领域的系数基本保持不变,表明记忆有影响力但不如其他预测因子稳定(补充表5)。

设计GPT-4o驱动的AI代理以增强临床决策过程

我们设计了一个交互式AI代理工作流程,将我们的GPT-4o框架集成起来,以协助临床医生和研究人员使用EHR进行认知诊断(补充图3)。AI代理通过三个核心组件运行:(1) 基于LLM的查询构建器,将人类提示转化为结构化查询,从EHR数据库中提取相关患者笔记和数据;(2) 我们的GPT-4o框架,处理临床笔记并生成CI分期和摘要;(3) 基于LLM的聊天机器人,通过使用GPT-4o框架总结的患者认知状态实时响应用户询问并提供决策支持。此设计实现了高效的AI增强工作流程,用于认知诊断相关任务,如识别未诊断的认知障碍、追踪疾病进展等,最终增强医生决策能力和研究人员对CI模式的理解。

讨论

在本研究中,我们的GPT-4o框架在分类CI阶段方面表现出色(加权kappa 0.95)。跨四个LLM框架的性能比较突出了将GPT-4o整合用于笔记总结和CI阶段分类的优势。结果清楚地表明了一个趋势:随着GPT-4o整合程度的提高,模型在CI分期中的性能也随之提升。这可能归因于GPT-4o解释和总结复杂、非结构化临床语言的先进能力。此外,GPT-4o输出了分类的明确理由(见补充说明1b中的示例),从而提供了可以检查准确性的证据。为了支持可重复性和透明度,我们包含了GPT-4o设置、提示和解析策略以及USE、DementiaBERT和XGBoost建模参数的详细描述。这些内容旨在便于未来复制和扩展我们的工作。

尽管这些结果令人鼓舞,表明GPT-4o在自动化图表审查和促进临床环境诊断方面具有潜力,但仍有一些误分类的情况需要解决。通过详细的错误分析,我们确定了导致误分类的三个关键因素:(1) GPT-4o倾向于过度依赖特定的认知评估分数,如MoCA和MMSE,直接根据这些分数是否落在MCI或痴呆范围内做出决定,而不是整合超出这些认知测试分数的更全面的认知和功能评估;(2) 在某些情况下,GPT-4o可能没有考虑到神经退化证据的缺失,导致错误分类;(3) 该模型有时会关注个别因素——基于单一受影响领域(如决策能力)高估损害,或通过将任何日常生活活动独立的个体归类为MCI或CU低估损害,而没有考虑其他认知领域。此外,该模型在MCI上的较低性能反映了该类别的固有诊断复杂性。这也与裁定者的信心评分一致,后者在MCI上的信心评分显著低于CU(正常)或痴呆,表明即使是专家评估者也认为MCI病例更难分类。

这种在MCI分类中的挑战强调了信心评分的重要性。虽然logprobs提供了客观的标记级确定性,但我们的研究结果表明,GPT-4o自我报告的信心更接近专家评估。一种可能的解释是,logprobs反映了标记级的语言确定性,而GPT-4o分配的信心可能更好地捕捉与人类诊断过程一致的内部推理。我们建议采用双重信心框架——结合GPT-4o分配的信心和源自logprobs的确定性——以提高可靠性并识别需要人工审查的案例。

鉴于我们的GPT-4o框架在分类CI阶段方面的强劲表现,我们进一步评估了其在分配全球CDR方面的潜力。虽然该框架在评估全球CDR方面也表现出色(加权kappa 0.79-0.83),但其得分略低于分类CI阶段。这种差异可能反映了分配全球CDR任务的复杂性增加,因为CDR需要详细评估六个领域的认知和功能能力,而分期则提供了更广泛的认知状态分类。值得注意的是,最高加权Cohen’s Kappa得分是通过使用包含信心水平和有记载领域数量的提示工程技术实现的。然而,即使是最佳方法也有几个错误,因此合著者JRD(一位记忆专家)手动审查了错误分配CDR的案例。笔记中的全球CDR与GPT-4o确定的全球CDR之间的不匹配归因于三个关键因素:(1) 整体与正式CDR计算——一些临床医生基于他们的整体评估估计一个“整体”CDR,而不是使用正式算法,导致潜在差异(例如,临床表现为轻度痴呆(CDR 1.0)的患者可能具有正式计算的CDR 0.5);(2) 对健忘症表现的偏见——正式CDR评分,高度加权记忆变化,可能会低估非健忘症痴呆病例的功能严重性;(3) 依赖病史与检查数据——GPT-4o可能过于依赖病史部分,忽略了检查中的关键信息,如定向力,导致计算错误。

在本研究中,启用RAG的GPT-4o并未显著提高得分;可能是所使用的信息来源对GPT-4o来说并非真正“外部”。也就是说,我们直接向GPT-4o查询了用作增强来源的国家阿尔茨海默病协调中心(NACC)文件,GPT-4o能够回答这些文件中的内容,表明GPT-4o已经训练过相似或相同的信息。因此,检索到的文档只是强化了现有知识,而没有引入新的见解。专家的决策笔记或相关来源可能对通过RAG增强GPT-4o非常有用,因为它们很可能不在用于训练GPT的常见数据集中,可以提供更多细致的专家推理。在未来的工作中,我们可以探索已发表的病例报告、临床决策文章或医院病例讨论会,其中临床医生讨论他们诊断和治疗的理由。简而言之,虽然我们的结果没有显示出RAG方法的显著性能改进,但我们认为根据我们的分析得出RAG架构本身无用的结论为时尚早。有了非预训练知识,RAG仍可能展示其全部潜力,这也是我们计划在未来工作中探索的内容。

本研究有一些局限性。一个潜在的局限性在于,在评估数据集中,三分之一的患者被专家看过,另有三分之一的患者在其医疗记录中有痴呆相关的诊断代码。这些患者可能已经因认知问题受到怀疑或正在接受治疗,他们的EHR中更有可能有详细的文档,可能导致性能指标膨胀。此外,重要的是要承认,尽管我们检查了模型性能中性别的潜在偏差来源,并未发现男性和女性子组之间模型性能有显著差异,但其他社会人口因素——如获得专家的机会、医疗保健利用率、症状报告和临床笔记中的文件记录做法——可能会引入我们未评估的偏差。此外,队列人口统计不具备广泛的美国或地区人口代表性——例如,数据集中93.1%的个体被认定为非西班牙裔白人。然而,该队列紧密反映了MGH Medicare人口,使其适合在真实世界学术医疗环境中评估模型性能。在此背景下,尽管存在所述局限性,GPT-4o框架始终优于其他大型语言模型。

未来的工作对于评估和减轻EHR数据中的潜在偏差至关重要,以确保负责任和公平的大规模部署。为了在敏感的临床环境中部署并提高可靠性,我们计划与更多专家合作,完善提示工程流程,并探索通过RAG纳入其他相关文档,如医院病例讨论会。这种方法将有助于减少误分类,并确保未来迭代中更全面的评估。此外,还需要在多个医疗机构进行更大规模的研究,以验证我们的GPT-4o框架作为痴呆图表审查工具的有效性,并调查GPT-4o辅助认知诊断在临床环境中是否能影响患者结果。

总之,我们提出的GPT-4o框架在明确定义的类别中表现出色。然而,边缘和MCI病例中的模糊性仍然是实际应用中的挑战。我们提出了一种医生介入框架,其中GPT-4o信心评分与临床判断相结合,以指导进一步认知评估或专家转诊的决策。这种方法不是在模糊案例中完全自动化决策,而是使用信心评分标记不确定或边缘预测,供专家审查,确保部署安全、可解释并与实际临床实践保持一致。此外,考虑到AI代理在医学中的更广泛潜力,我们构想了一个交互式AI代理工作流程,将我们的框架与人类反馈集成,以促进从EHR自动数据查询、实时用户参与和认知诊断决策支持。虽然此工作流程尚未完全实施,但我们相信其设计和基础概念可以作为宝贵的基础和指南,在实际临床环境中进行部署。


(全文结束)

大健康

猜你喜欢

  • 新加坡卫生部签署历史性协议 成为HealthAI全球监管网络先锋国家新加坡卫生部签署历史性协议 成为HealthAI全球监管网络先锋国家
  • 环境人工智能迅速流行环境人工智能迅速流行
  • 联合国峰会探讨人工智能的机遇与挑战联合国峰会探讨人工智能的机遇与挑战
  • EHR技术如何简化行为健康工作流程EHR技术如何简化行为健康工作流程
  • 常用于治疗背痛的药物可能增加痴呆风险常用于治疗背痛的药物可能增加痴呆风险
  • 2025年医院外包市场扩展至4212.1亿美元 远程医疗采用率持续增长2025年医院外包市场扩展至4212.1亿美元 远程医疗采用率持续增长
  • AI作为医疗工具,而非替代品:医学专业人士如何与技术协作AI作为医疗工具,而非替代品:医学专业人士如何与技术协作
  • Navina与Nabla合作将临床辅助工具与环境AI整合Navina与Nabla合作将临床辅助工具与环境AI整合
  • 礼来公司获美国FDA批准更新Kisunla标签,用于早期症状性阿尔茨海默病的新剂量礼来公司获美国FDA批准更新Kisunla标签,用于早期症状性阿尔茨海默病的新剂量
  • 常用止痛药可能增加痴呆风险高达40%常用止痛药可能增加痴呆风险高达40%
大健康
大健康

热点资讯

大健康

全站热点

大健康

全站热文

大健康