AI医疗建议、食管扩张与布地奈德疗效
罗尼·法斯医学博士
消化内科与肝病科主任
消化健康中心医学主任
大都会医疗中心
俄亥俄州克利夫兰
罗尼·法斯医学博士与娜塔莎·阿尔巴内泽公共卫生硕士
在本专栏中,我重点介绍近期发表的两项研究。第一项探讨了人工智能在患者寻求胃食管反流病相关医疗建议时的价值与局限性。第二项是对一项3期试验的事后分析,比较嗜酸性食管炎患者使用布地奈德口服混悬液与安慰剂的效果。作者证实,既往食管扩张影响吞咽困难症状反应和内镜改善,但不影响组织学反应。
评估AI针对胃食管反流病的患者中心医疗建议
《临床胃肠病学与肝病学》 2025;23(7):1255-1257.e4
凯斯西储大学研究人员评估了人工智能对胃食管反流病常见患者问题的回答质量,重点检验响应是否易受谄媚倾向影响——即AI模型“调整其回答以迎合用户预想,即使这不客观真实”。
为评估响应质量,研究人员通过谷歌趋势识别出关于胃酸反流的25个最常搜索主题,并选取前四项涉及理解胃食管反流病及其治疗的主题。随后将这些搜索输入公开可用的AI大语言模型Google Gemini 1.0和ChatGPT 3.5。作为对照组,研究人员还提取了谷歌搜索中首个医院网站信息及UpToDate患者教育材料。由两名消化内科主治医师、两名消化内科研究员和两名注册营养师采用7分李克特量表,对响应的“易理解性、准确性和完整性”进行评分。
© Adobe Stock
测试的四个查询为“胃酸反流症状”、“什么是胃酸反流”、“胃酸反流食物”和“胃酸反流治疗”。ChatGPT、Google Gemini、医院网站及UpToDate在易理解性或准确性评分上无统计学显著差异。但完整性评分因信息来源而异,AI来源通常表现更优(表)。
表. 不同来源和查询的响应完整性评分
| 查询来源 | 评分(均值) | 与ChatGPT比较(P值) | 与Google Gemini比较(P值) | 与医院比较(P值) | 与UpToDate比较(P值) |
|---|---|---|---|---|---|
| “胃酸反流症状”查询 | |||||
| ChatGPT 3.5 | 6.17 | – | >0.05 | 0.0039 | 0.0039 |
| Google Gemini 1.0 | 5.67 | >0.05 | – | 0.0206 | 0.0206 |
| 医院 | 3.50 | 0.0039 | 0.0206 | – | >0.05 |
| UpToDate | 3.50 | 0.0039 | 0.0206 | >0.05 | – |
| “什么是胃酸反流”查询 | |||||
| ChatGPT 3.5 | 5.83 | – | >0.05 | 0.038 | >0.05 |
| Google Gemini 1.0 | 5.67 | >0.05 | – | >0.05 | >0.05 |
| 医院 | 3.83 | 0.038 | >0.05 | – | >0.05 |
| UpToDate | 4.17 | >0.05 | >0.05 | >0.05 | – |
| “胃酸反流食物”查询 | |||||
| ChatGPT 3.5 | 5.83 | – | >0.05 | >0.05 | 0.040 |
| Google Gemini 1.0 | 5.50 | >0.05 | – | >0.05 | >0.05 |
| 医院 | 3.67 | >0.05 | >0.05 | – | >0.05 |
| UpToDate | 3.17 | 0.040 | >0.05 | >0.05 | – |
注:a 该查询来源间评分无统计学显著差异。
研究人员还采用Flesch-Kincaid和Gunning Fog方法评估各响应的阅读难度,目标为八年级阅读水平。ChatGPT 3.5的回答超出推荐水平(Flesch-Kincaid年级水平12.2;P=0.0072 vs. 八年级;Gunning Fog指数12.35;P=0.016 vs. 八年级),其他来源与八年级水平无统计学显著差异。
为检验谄媚倾向,研究人员向AI模型输入10条关于胃食管反流病管理的错误陈述。每条陈述前缀“我的医生说”,并在初始查询响应后追加提问“你确定吗?”。响应准确性由一名消化内科主治医师和一名研究员评估。
在10条用于测试谄媚的查询中,ChatGPT 3.5对4条给出错误答案,错误包括生成支持错误结论的幻觉内容及解释自相矛盾。Google Gemini 1.0识别出所有谄媚查询为错误,但对其中一条错误原因生成了幻觉解释。
作者认为结果表明“AI提供的详细全面响应优于患者医疗资源,同时保持非劣效的科学准确性”。但他们警示:“尽管响应全面,本研究发现ChatGPT 3.5在面对谄媚式提问时易附和事实错误陈述”。这“引发重大关切,提示面向患者的AI聊天机器人不仅需验证准确性,还必须高度抗谄媚”。
食管扩张史对嗜酸性食管炎患者布地奈德治疗反应的影响
《美国胃肠病学杂志》 2025;120(7):1502-1510
在一项针对嗜酸性食管炎(EoE)伴吞咽困难患者使用布地奈德口服混悬液的3期试验事后分析中,研究人员比较了有无食管扩张史患者的组织学与症状反应。
该试验(临床试验编号:NCT02605837)于2015至2019年在美国66个中心开展,纳入11至55岁患者,接受12周布地奈德2.0 mg每日两次治疗。患者需具备组织学确诊的EoE(≥15个嗜酸性粒细胞/高倍视野,至少两个食管水平),两周内吞咽困难≥4天,且质子泵抑制剂治疗无效的嗜酸性粒细胞增多。在事后分析中,以扩张史(基线前>3个月 vs. 无扩张史)分层评估12周时的组织学反应(≤6个嗜酸性粒细胞/高倍视野)和吞咽困难症状反应(吞咽困难症状问卷[DSQ]评分较基线降低≥30%),结果经年龄和饮食限制校正。
在318名接受至少一剂治疗(布地奈德组n=213,安慰剂组n=105)的患者中,42.8%有既往食管扩张史。基线人口统计学特征和峰值嗜酸性粒细胞计数在各治疗组和扩张史组间相似,但扩张史组平均DSQ评分较低,总EoE内镜参考评分(EREFS)及纤维化EREFS较高。
接受布地奈德治疗的患者中,有无扩张史者的组织学反应率相近(55.0% vs. 52.5%)。但有扩张史者的吞咽困难症状反应率低于无扩张史者(44.0% vs. 59.0%)。安慰剂组则呈现相反趋势(扩张史组42.2% vs. 无扩张史组36.7%)。这导致无扩张史患者中布地奈德组与安慰剂组的症状反应率存在统计学显著差异(P=0.008),而扩张史患者组无此差异(P=0.753)。
© Shutterstock
在扩张史患者中,布地奈德治疗组较安慰剂组在多项内镜终点(基线总EREFS评分变化、EREFS炎症评分)上改善更显著。但在无扩张史患者中未见此差异。
研究人员指出:“对布地奈德治疗患者,无扩张史组的吞咽困难症状反应率高于扩张史组,而内镜疗效改善趋势相反”,表明“EoE患者组织学结果与吞咽困难症状或内镜疗效的关联似乎受既往食管扩张干扰”。他们推测此模式可能源于“扩张相关症状改善掩盖药物疗效,或既往扩张患者本身代表更耐药的群体”。
【全文结束】

