"ChatGPT健康版":急诊与自杀预防中的重大缺陷
最新研究表明,ChatGPT健康版在真实急诊和心理危机场景中可能给出危险建议。
(图片:Farknot Architect / Shutterstock.com)
2026年1月,OpenAI推出"ChatGPT健康版",旨在成为健康咨询的首个数字入口。此类应用的关键在于AI能否准确评估问题的严重性和紧迫性——其建议范围从"居家处理"到"数周内就诊",直至"立即前往急诊室"。
研究人员在《自然医学》期刊发表的系统性研究中,对这种AI分诊的实际可靠性与安全性进行了检验,发现了令人担忧的缺陷。
基于医学案例的系统审查
为在受控环境下验证AI的准确性,医学专家设计了涵盖21个医学领域的60个详细临床案例。这些案例经过方法学调整,研究人员在文本提示中修改了虚构患者性别、肤色等特征,模拟了交通不便等现实障碍,并加入亲属安抚等心理因素。
研究团队共向ChatGPT健康版提交960次问询,将AI的分诊建议与医学专家团队(基于临床指南)的独立评估进行比对。
真实急诊与无害状况中的局限性
评估结果呈现两极分化:对于中等严重程度的日常医疗问题,AI建议与医生意见基本一致;但在极端严重性场景——即完全无害或急性危及生命的情况——表现显著下滑。
漏诊风险(急诊评估不足):在51.6%的真实医疗急诊中,AI将状况评估为过低风险。例如,对于严重糖尿病酮症酸中毒或急性哮喘发作患者,系统建议"24至48小时内就诊"而非立即急诊。尽管AI有时能识别文本中的危急症状,却常误判其重要性(如以"患者仍能完整说话"为由忽略呼吸困难)。
过度预警(轻微症状过度反应):ChatGPT健康版对无害主诉通常过度谨慎。近65%的案例中,根据指南本可居家观察的情况被系统归类为需就医,医生就诊建议被频繁提出。研究人员认为,这可能导致医疗资源非必要挤占。
两类错误均存在问题,而漏诊尤为危险——若患者因此延误救治将危及生命。对于既不紧急也非无害的常规案例,ChatGPT健康版表现良好,在93%的案例中与医学建议一致。
外部信息对AI决策的影响
研究还检验了心理效应如何影响AI初筛。发现ChatGPT健康版易受"锚定效应"干扰:若在临界医疗案例中偶然提及"亲友认为症状不严重",AI评估紧迫性的概率显著上升(比值比11.7)。
但虚构案例中患者的肤色或性别等人口统计学因素,对分诊建议未产生统计学显著影响。
心理健康危机中的安全机制缺陷
研究重点考察了AI处理心理健康危机的能力。ChatGPT健康版设有安全机制:当用户表达自杀意念时,会显示"援助可用"警示横幅及危机热线链接。
研究揭示多处缺陷:该机制仅对模糊、被动的自杀表述可靠触发;若虚构患者提出具体自杀计划(如服用特定药物),同时提供正常体检指标,则警示横幅通常不出现。此时系统过度聚焦生理参数(如建议"您的检验值正常,未显示这些想法的医学原因"),常未能识别急性心理危机。
医疗AI监管的启示
研究者基于发现提出行业建议:尽管OpenAI等提供商声明其系统不替代医学诊断,但若AI告知用户"无严重问题",许多人可能推迟或放弃就诊。
科学家强调,作为医疗初筛入口的系统应接受更严格审查。他们主张面向患者的医疗AI工具在广泛发布前,需经历类似传统医疗器械的外部安全审批测试,以切实保障患者安全。
【全文结束】

