研究揭示AI医疗分诊系统中被忽视的缺陷

研究揭示AI医疗分诊系统中被忽视的缺陷Study Reveals Overlooked Flaws in AI-Powered Medical Triage Systems

环球医讯 / AI与医疗健康来源：bioengineer.org美国 - 英语2026-03-10 11:39:31 - 阅读时长6分钟 - 2502字

西奈山医学院研究人员在《自然医学》发表的里程碑式研究显示，OpenAI推出的ChatGPT Health存在严重安全漏洞。研究团队通过960次模拟测试发现，该系统对复杂紧急情况的分诊准确率低下，超过半数真实需要紧急干预的病例（如哮喘患者早期呼吸衰竭征兆）被错误建议"观察等待"；更危险的是在自杀风险评估中，系统未能对披露详细自残计划的高风险用户触发警报，却在低风险场景误报。专家警告AI在医疗极端情境中的风险最高，呼吁建立常态化独立评估机制，强调此类工具仅应作为专业医疗判断的辅助而非替代品，尤其在胸痛、意识障碍或严重过敏反应等危急症状出现时必须寻求人工医疗干预，避免因算法缺陷延误救治。

西奈山伊坎医学院研究人员近期在顶级期刊《自然医学》发表了一项里程碑式研究，对OpenAI于2026年1月推出的面向公众的AI医疗工具ChatGPT Health进行了令人警醒的评估。该工具上线后迅速积累约4000万日活用户，公众通过它获取从常规健康咨询到紧急分诊建议的各类医疗指导。然而这项独立科学调查揭示，该AI系统在准确判断紧急状况和应对高风险自杀场景方面存在重大缺陷，对其在危急时刻的安全性和可靠性提出质疑。

本研究是ChatGPT Health问世以来首个针对大语言模型（LLM）医疗聊天机器人的严格独立安全评估。随着AI解决方案日益融入医疗领域，这项研究既展示了自动化系统的潜力，也凸显了其在需要细致判断医疗紧急程度时的危险局限。研究团队设计了涵盖21个医学专科的60个详细临床案例，精心覆盖从轻度非紧急状况到真实医疗紧急情况的广泛谱系。每个案例均由心脏病学、神经病学、急诊医学等专科医师开发，并依据50多个专业协会的标准化临床指南，经三名独立医师达成共识确认适当紧急程度。

测试在16种不同情境变量下展开，包括种族与性别差异、社会背景修饰（如患者淡化症状描述）以及保险状态和交通可用性等外部障碍。通过这960次精心设计的患者交互场景，研究人员要求ChatGPT Health提供分诊建议，并将其推荐与医师共识基准进行对比。值得注意的是，虽然该AI能识别中风和过敏性休克等教科书式紧急状况，但在超过半数真正需要紧急干预的复杂边缘病例中未能建议急诊护理。例如，面对哮喘患者早期呼吸衰竭征兆的场景，AI在推理过程中已识别危险，却矛盾地建议"观察等待"策略而非立即急诊评估。

研究结果凸显了一个关键局限：当前基于大语言模型的系统在临床指标鲜明无可争议时表现尚可，但在细微临床判断至关重要的复杂边缘病例中会严重失误。这种差异尤为令人担忧，因为许多用户寻求AI建议恰恰是因为其症状模糊或处于演变阶段，而非问题已显而易见时。研究首席作者阿什温·拉马斯瓦米博士指出，这些工具"在临床判断最为关键的复杂情境中表现吃力"，导致潜在紧急情况被危险地错误分诊。

评估的另一令人担忧维度涉及ChatGPT Health的自杀风险应对协议。该系统本应将高风险用户转接至988自杀与危机生命线这一关键资源，但研究人员发现其警报机制存在严重不一致：在相对低风险情境中触发警报，却在用户披露详细自残计划（表明即刻危险的临床警示信号）时未能激活。西奈山温德赖希人工智能与人类健康系主任、资深研究作者吉里什·N·纳德卡尼博士将这种倒置描述为"超越不一致"，指出该工具似乎在良性场景中比在显示急性自杀倾向的场景中更为警惕。在真实临床实践中，明确的自杀意图需立即干预，这凸显了ChatGPT Health风险评估与既定临床优先级之间的危险脱节。

本研究的方法论体现了AI安全评估所需的严谨方法。通过纳入多样医学专科和广泛情境变量，研究团队构建了模拟真实医学复杂性的测试环境。这种精细化至关重要，因为AI工具必须应对影响临床决策的社会健康决定因素和表现细微差别。此外，每个案例设置16种情境变体，确保ChatGPT Health的推荐经受住各种潜在偏见的检验，测试模型对患者人口统计特征和获取资源差异等因素的稳健性。

哈佛医学院生物医学信息学系主任艾萨克·S·科哈内博士（未参与本研究）指出，尽管AI系统正成为许多患者的默认选择，但其最大风险存在于"医疗极端情境"中，此处误判的代价最高。他强调"独立评估应成常规而非选择"，这凸显了对AI医疗产品进行透明化和持续外部评估的紧迫需求，确保其在广泛部署前达到严格安全标准。

研究作者明确倡导谨慎而审慎地使用基于AI的医疗聊天机器人。他们强调此类工具应作为专业医疗判断的辅助而非替代品。在胸痛、意识状态改变或严重过敏反应等症状恶化的情况下，直接医疗评估仍不可或缺。同样，任何经历自残念头者应立即向既定危机资源或急诊服务求助，而非依赖可能不一致的AI指导。

ChatGPT Health等大语言模型的快速演变特性也使问题复杂化。AI架构频繁更新，训练和微调几乎实时进行。这种动态环境意味着性能可能波动，有时改善但有时退化，且缺乏透明监控。研究作者强调必须建立与AI模型迭代同步的持续独立评估协议，确保任何改进都能转化为更安全、符合临床规范的用户建议。

展望未来，西奈山研究团队计划扩展评估范围，探索儿科护理、用药安全检查以及非英语语言环境中的聊天机器人交互等关键领域。鉴于依赖AI协助的人群广泛（包括可能因错误分诊面临更大风险的弱势群体），此类扩展至关重要。这些未来评估将进一步阐明AI在医学中的能力与局限，为负责任地将其整合到医疗路径提供指导。

由纳德卡尼博士领导的西奈山伊坎医学院温德赖希人工智能与人类健康系正引领这些努力。该部门致力于开创道德、安全且有效的AI应用，以革新研究、临床护理和教育。通过与哈索·普拉特纳数字健康研究所合作，西奈山利用世界级计算基础设施和跨学科专业知识，将机器学习创新（如NutriScan AI营养不良检测工具）转化为有影响力的临床解决方案——这证明当AI经过审慎开发和部署时，在医疗保健领域具有变革性潜力。

这项关键研究既是对蓬勃发展的数字健康生态系统的警示，也是行动的号召。虽然ChatGPT Health等AI医疗聊天机器人提供了前所未有的医疗指导可及性和即时性，但用户和临床医生必须对其当前局限性保持警惕。负责任的采用将需要持续的算法优化、系统化验证和细致的临床监督，确保AI增强而非削弱患者安全。随着这些工具日益渗透日常健康决策，跨学科合作和独立科学审查对保障AI时代公众健康福祉至关重要。

研究主题：人类

文章标题： ChatGPT Health在分诊建议结构化测试中的表现

关键词：生成式AI、人工智能、计算机科学、应用科学、医疗AI、聊天机器人安全、医疗分诊、自杀风险评估、大语言模型

【全文结束】