AI医疗建议食管扩张与布地奈德疗效评估AI Medical Advice Efficacy Accuracy

环球医讯 / AI与医疗健康来源:www.gastroendonews.com美国 - 英语2025-12-31 05:15:13 - 阅读时长6分钟 - 2925字
本文评述两项关键医学研究:首先通过对照实验评估人工智能在胃食管反流病患者咨询中的表现,发现AI虽提供更完整信息但存在谄媚倾向,可能附和错误医疗陈述;其次分析嗜酸性食管炎患者食管扩张史对布地奈德治疗效果的影响,证实既往扩张显著降低症状改善率却提升内镜改善效果,揭示治疗反应评估受扩张史干扰的复杂机制。研究强调AI医疗应用需严格验证抗谄媚能力,同时提示个体化治疗方案设计应考虑患者既往干预史,对优化消化系统疾病管理具有重要临床指导价值。
AI医疗建议食管扩张布地奈德疗效评估胃食管反流病嗜酸性食管炎吞咽困难组织学反应内镜改善AI谄媚倾向
AI医疗建议食管扩张与布地奈德疗效评估

AI医疗建议、食管扩张与布地奈德疗效

罗尼·法斯医学博士

消化内科与肝病科主任

消化健康中心医学主任

大都会医疗中心

俄亥俄州克利夫兰

罗尼·法斯医学博士与娜塔莎·阿尔巴内泽公共卫生硕士

在本专栏中,我重点介绍近期发表的两项研究。第一项探讨了人工智能在患者寻求胃食管反流病相关医疗建议时的价值与局限性。第二项是对一项3期试验的事后分析,比较嗜酸性食管炎患者使用布地奈德口服混悬液与安慰剂的效果。作者证实,既往食管扩张影响吞咽困难症状反应和内镜改善,但不影响组织学反应。

评估AI针对胃食管反流病的患者中心医疗建议

《临床胃肠病学与肝病学》 2025;23(7):1255-1257.e4

凯斯西储大学研究人员评估了人工智能对胃食管反流病常见患者问题的回答质量,重点检验响应是否易受谄媚倾向影响——即AI模型“调整其回答以迎合用户预想,即使这不客观真实”。

为评估响应质量,研究人员通过谷歌趋势识别出关于胃酸反流的25个最常搜索主题,并选取前四项涉及理解胃食管反流病及其治疗的主题。随后将这些搜索输入公开可用的AI大语言模型Google Gemini 1.0和ChatGPT 3.5。作为对照组,研究人员还提取了谷歌搜索中首个医院网站信息及UpToDate患者教育材料。由两名消化内科主治医师、两名消化内科研究员和两名注册营养师采用7分李克特量表,对响应的“易理解性、准确性和完整性”进行评分。

© Adobe Stock

测试的四个查询为“胃酸反流症状”、“什么是胃酸反流”、“胃酸反流食物”和“胃酸反流治疗”。ChatGPT、Google Gemini、医院网站及UpToDate在易理解性或准确性评分上无统计学显著差异。但完整性评分因信息来源而异,AI来源通常表现更优(表)。

表. 不同来源和查询的响应完整性评分

查询来源 评分(均值) 与ChatGPT比较(P值) 与Google Gemini比较(P值) 与医院比较(P值) 与UpToDate比较(P值)
“胃酸反流症状”查询
ChatGPT 3.5 6.17 >0.05 0.0039 0.0039
Google Gemini 1.0 5.67 >0.05 0.0206 0.0206
医院 3.50 0.0039 0.0206 >0.05
UpToDate 3.50 0.0039 0.0206 >0.05
“什么是胃酸反流”查询
ChatGPT 3.5 5.83 >0.05 0.038 >0.05
Google Gemini 1.0 5.67 >0.05 >0.05 >0.05
医院 3.83 0.038 >0.05 >0.05
UpToDate 4.17 >0.05 >0.05 >0.05
“胃酸反流食物”查询
ChatGPT 3.5 5.83 >0.05 >0.05 0.040
Google Gemini 1.0 5.50 >0.05 >0.05 >0.05
医院 3.67 >0.05 >0.05 >0.05
UpToDate 3.17 0.040 >0.05 >0.05

注:a 该查询来源间评分无统计学显著差异。

研究人员还采用Flesch-Kincaid和Gunning Fog方法评估各响应的阅读难度,目标为八年级阅读水平。ChatGPT 3.5的回答超出推荐水平(Flesch-Kincaid年级水平12.2;P=0.0072 vs. 八年级;Gunning Fog指数12.35;P=0.016 vs. 八年级),其他来源与八年级水平无统计学显著差异。

为检验谄媚倾向,研究人员向AI模型输入10条关于胃食管反流病管理的错误陈述。每条陈述前缀“我的医生说”,并在初始查询响应后追加提问“你确定吗?”。响应准确性由一名消化内科主治医师和一名研究员评估。

在10条用于测试谄媚的查询中,ChatGPT 3.5对4条给出错误答案,错误包括生成支持错误结论的幻觉内容及解释自相矛盾。Google Gemini 1.0识别出所有谄媚查询为错误,但对其中一条错误原因生成了幻觉解释。

作者认为结果表明“AI提供的详细全面响应优于患者医疗资源,同时保持非劣效的科学准确性”。但他们警示:“尽管响应全面,本研究发现ChatGPT 3.5在面对谄媚式提问时易附和事实错误陈述”。这“引发重大关切,提示面向患者的AI聊天机器人不仅需验证准确性,还必须高度抗谄媚”。

食管扩张史对嗜酸性食管炎患者布地奈德治疗反应的影响

《美国胃肠病学杂志》 2025;120(7):1502-1510

在一项针对嗜酸性食管炎(EoE)伴吞咽困难患者使用布地奈德口服混悬液的3期试验事后分析中,研究人员比较了有无食管扩张史患者的组织学与症状反应。

该试验(临床试验编号:NCT02605837)于2015至2019年在美国66个中心开展,纳入11至55岁患者,接受12周布地奈德2.0 mg每日两次治疗。患者需具备组织学确诊的EoE(≥15个嗜酸性粒细胞/高倍视野,至少两个食管水平),两周内吞咽困难≥4天,且质子泵抑制剂治疗无效的嗜酸性粒细胞增多。在事后分析中,以扩张史(基线前>3个月 vs. 无扩张史)分层评估12周时的组织学反应(≤6个嗜酸性粒细胞/高倍视野)和吞咽困难症状反应(吞咽困难症状问卷[DSQ]评分较基线降低≥30%),结果经年龄和饮食限制校正。

在318名接受至少一剂治疗(布地奈德组n=213,安慰剂组n=105)的患者中,42.8%有既往食管扩张史。基线人口统计学特征和峰值嗜酸性粒细胞计数在各治疗组和扩张史组间相似,但扩张史组平均DSQ评分较低,总EoE内镜参考评分(EREFS)及纤维化EREFS较高。

接受布地奈德治疗的患者中,有无扩张史者的组织学反应率相近(55.0% vs. 52.5%)。但有扩张史者的吞咽困难症状反应率低于无扩张史者(44.0% vs. 59.0%)。安慰剂组则呈现相反趋势(扩张史组42.2% vs. 无扩张史组36.7%)。这导致无扩张史患者中布地奈德组与安慰剂组的症状反应率存在统计学显著差异(P=0.008),而扩张史患者组无此差异(P=0.753)。

© Shutterstock

在扩张史患者中,布地奈德治疗组较安慰剂组在多项内镜终点(基线总EREFS评分变化、EREFS炎症评分)上改善更显著。但在无扩张史患者中未见此差异。

研究人员指出:“对布地奈德治疗患者,无扩张史组的吞咽困难症状反应率高于扩张史组,而内镜疗效改善趋势相反”,表明“EoE患者组织学结果与吞咽困难症状或内镜疗效的关联似乎受既往食管扩张干扰”。他们推测此模式可能源于“扩张相关症状改善掩盖药物疗效,或既往扩张患者本身代表更耐药的群体”。

【全文结束】

猜你喜欢
  • 医疗AI的必然要求:从潜力到绩效医疗AI的必然要求:从潜力到绩效
  • 沙特阿拉伯智能医院市场预计2033年增长至三倍 2030愿景推动数字医疗繁荣沙特阿拉伯智能医院市场预计2033年增长至三倍 2030愿景推动数字医疗繁荣
  • 2025年老年人认知衰退管理的创新神经学护理方案2025年老年人认知衰退管理的创新神经学护理方案
  • 朴宰根教授在KDDW 2025发布超声内镜结合AI诊断胰腺癌突破性研究成果朴宰根教授在KDDW 2025发布超声内镜结合AI诊断胰腺癌突破性研究成果
  • 数千次AI远程医疗就诊揭示的美国健康真相数千次AI远程医疗就诊揭示的美国健康真相
  • 南奥肯那根西米克米恩医疗基金会"给予星期二"为当地医院筹集超过83万美元南奥肯那根西米克米恩医疗基金会"给予星期二"为当地医院筹集超过83万美元
  • 数千次AI远程医疗就诊揭示的美国健康真相数千次AI远程医疗就诊揭示的美国健康真相
  • 众包AI医疗诊断应用能否超越医生水平众包AI医疗诊断应用能否超越医生水平
  • 达芙妮·科勒:人工智能驱动药物研发的领军人物达芙妮·科勒:人工智能驱动药物研发的领军人物
  • 想用AI咨询下次医生就诊?Fitbit新工具正做此事——但为何隐患重重想用AI咨询下次医生就诊?Fitbit新工具正做此事——但为何隐患重重
热点资讯
全站热点
全站热文