摘要
背景
人工智能(AI)当前已应用于医疗领域的诊断、决策和教育。ChatGPT-4o凭借其先进的语言处理和问题解决能力,为临床培训提供了创新的虚拟标准化患者替代方案。实习医生需发展临床病例管理技能,如问题解决、临床推理和危机管理。本研究中,ChatGPT-4o模拟虚拟标准化患者,医学实习生作为医生参与临床病例管理,旨在评估实习医生在问题解决、临床推理、危机管理方面的胜任力,并探索ChatGPT-4o作为评估工具的潜在影响。
方法
本研究采用同步三角验证设计,整合定量与定性数据。研究在土耳其艾丁·阿德南·门德雷斯大学开展,21名六年级医学生参与。ChatGPT-4o模拟需要临床病例管理能力的真实患者互动。数据通过自我评估调查、半结构化访谈和观察收集,分析包括皮尔逊相关性、卡方检验和克鲁斯卡尔-沃利斯检验,并使用MAXQDA软件进行定性数据编码分析。
结果
观察与自我评估调查显示,实习医生的临床病例管理技能评分呈正相关。参与者自我评估与实际表现存在显著差距,表明自我感知与实际能力不一致。参与者报告在问题解决和临床推理能力方面存在不足,并感受到时间压力。尽管流程受技术断连和语言处理挑战影响,但参与者对AI驱动的标准化患者流程表示满意并愿意持续使用。
结论
ChatGPT-4o成功模拟患者互动,为临床病例管理提供无风险的可控环境。尽管技术挑战限制了效果,但其具有成本效益且易于获取。预计通过多样化临床场景的训练,AI可更好支持实习医生掌握临床管理技能。
背景
人工智能(AI)的历史始于1950年代英国数学家艾伦·图灵提出的“机器能思考吗?”这一问题。他提出了“图灵测试”以判断机器是否能表现出与人类无法区分的行为。自2022年发布以来,ChatGPT-4o作为OpenAI开发的先进语言模型,具备增强的语言理解、知识库扩展、代码生成能力及处理长文本和语音通信的功能,已显示出在诊断、决策和数据分析中的潜力。
标准化患者(SP)是临床教育的核心工具,通过模拟真实场景帮助学生在无风险环境中提升临床技能。临床病例管理(CCM)整合临床推理(CR)、问题解决(PS)和危机管理(CM)能力,是医疗决策的关键。然而,SP资源有限且成本高昂。虚拟标准化患者通过AI技术提供灵活、经济的解决方案,早期研究显示生成式AI模型能有效支持学生临床能力发展。
方法
研究设计与参与者
本研究采用同步三角验证设计,在土耳其艾丁·阿德南·门德雷斯大学2024年7-9月开展,21名完成临床轮转的实习医生参与。研究符合《土耳其2020年国家核心课程指南》对医生胜任力的要求。
数据收集工具
- 自我评估调查:经临床专家与测量专家验证,包含问题解决(12项)、临床推理(12项)和危机管理(11项)维度。
- 访谈表:包含5个探索问题解决、临床推理和危机管理能力的开放性问题。
- 观察表:采用5分量表评估问题解决、临床推理和危机管理表现,观察者一致性达83.33%。
实施流程
- 临床病例开发:依据土耳其常见疾病(高血压和布鲁氏菌病)开发案例,经临床专家和教育技术专家审核。
- 交互模拟:实习生通过平板与ChatGPT-4o模拟患者互动,观察者记录表现并提供实验室结果。
- 数据收集:参与者完成自我评估调查并接受访谈,观察者记录技术挑战。
数据分析
定量数据采用皮尔逊相关和非参数检验,定性数据通过MAXQDA进行内容分析,直到达到数据饱和。
结果
参与者特征
21名参与者(女8人,男13人),平均年龄24±1.03岁。15人自愿选择医学专业,9人仍满意该选择。学习资源偏好依次为互联网(17人)、讲座笔记(15人)、教科书(14人)、讲师(14人)、同伴(11人)、住院医师(10人)和AI(8人)。
关键发现
- 研究问题1:自愿选择医学专业的参与者在问题解决和临床推理观察评分中得分更高,满意度与技能评分呈正相关。
- 研究问题2:观察评分与自我评估无直接关联,但临床推理与问题解决评分呈强正相关(r=0.824, p<0.001)。
- 研究问题3:16人报告问题解决能力不足,10人感受到时间压力,但普遍认可AI流程的学术价值。
- 研究问题4:观察者记录的主要技术挑战包括语言响应错误(35%)、会话中断(25%)和服务器过载(20%)。
讨论
- AI在医学教育中的潜力:ChatGPT-4o通过个性化案例模拟弥补了传统教学资源的不足,尤其在问题解决和临床推理能力培养方面。其成本效益和可扩展性使其成为医学教育的重要补充。
- 局限性与改进方向:技术挑战(如多语言理解误差、服务器过载)限制了应用效果。未来需优化自然语言处理能力,集成影像功能,并加强反馈机制。
- 教育范式转变:AI工具的整合需遵循布鲁姆分类学和米勒金字塔理论,从知识获取转向实践应用。研究建议通过结构化培训提升AI工具使用效能,并确保符合隐私法规。
结论
研究证实AI驱动的标准化患者可有效提升临床技能,但需解决技术局限性。未来需在更大样本和多样案例中验证AI长期影响,并探索其与医学课程的深度整合。
局限性
本研究样本量较小且聚焦两个病例,可能影响结果普适性。技术延迟和通信故障可能干扰高压力场景表现。未来研究需扩大病例多样性并评估长期培训效果。
【全文结束】

