里程碑式研究揭示人工智能医疗建议中的危险缺陷 - AI与医疗健康

里程碑式研究揭示人工智能医疗建议中的危险缺陷Landmark study reveals AI’s dangerous shortcomings in medical advice

环球医讯 / AI与医疗健康来源：www.medicine.news英国 - 英语2026-03-02 18:08:55 - 阅读时长3分钟 - 1497字

牛津大学在《自然医学》期刊发表的重大研究显示，当公众实际使用AI获取医疗建议时，其正确识别疾病概率不足34.5%，远低于实验室测试中94.9%的准确率；研究揭示AI对问题表述高度敏感，常提供矛盾诊断建议，最高25%的回复包含编造的临床细节或虚假研究，且无法进行身体检查或理解患者完整背景，这导致在缺乏专业医师验证的情况下可能造成严重健康危害，尤其当超三分之一英国居民已将AI用于健康咨询时，该发现为当前医疗AI的仓促部署敲响警钟。

一项突破性研究戳破了人工智能革命的炒作泡沫，警示AI聊天机器人频繁提供错误且不一致的医疗建议，对公众构成直接风险。2月9日发表在权威期刊《自然医学》的牛津大学研究成果给出清醒结论：尽管具备先进能力，大型语言模型在担任医生角色时存在危险缺陷。研究结果引发对医疗系统快速部署这些工具的紧迫质疑，并凸显实验室表现与真实人际互动间的关键脱节。

医疗炒作的现实检验

这项由医学专家和AI研究人员主导的研究，代表了针对公众医疗指导AI的最大规模真实场景测试。研究人员招募了近1300名英国成年人参与详细医疗情景模拟。参与者被分为若干组，部分使用GPT-4o、Llama 3和Command R+等流行AI模型获取辅助，对照组则采用传统方法。结果令人震惊：使用AI的组别表现不比对照组更好，某些方面甚至更差。AI使用者正确识别相关疾病的概率不足34.5%，与传统方法相当；而对照组识别正确疾病的概率比依赖AI的组别高出1.76倍。

能力幻觉的破灭

关键发现揭示了AI在受控测试与真实人际互动中的表现鸿沟。当研究人员将医疗情景直接输入AI模型进行标准化测试时，系统表现优异，疾病识别准确率达94.9%。然而这种技术优势在复杂的人际互动现实中彻底崩塌。首席医学研究员丽贝卡·佩恩医生强调，该发现应视为明确警告：语言模型尚未准备好承担医生职责，向其咨询症状可能引发危险，因其可能提供错误诊断或未能识别紧急医疗需求。

人际互动为何击垮AI

用户常因不知所需信息而提供不完整描述，AI模型则对问题表述方式高度敏感，仅因细微措辞差异便给出截然不同的建议。例如两名描述相似中风症状的用户，竟从同一AI获得相反的医疗建议。此外，聊天机器人通常混杂提供准确与错误信息，迫使用户自行分辨矛盾建议。资深作者亚当·马迪医生称这种差距是警醒时刻，主张AI系统在确认安全前需经历类似临床试验的严格人机协同测试。

在公众使用激增中的仓促部署

此项警示性研究恰逢科技公司加速向医疗领域推进AI之际。2025年11月英国调查显示，超三分之一居民已使用AI支持心理健康。专业医学机构坚持认为，AI仅应补充而非取代医师判断，正因其无法进行身体检查或理解患者生活全貌。正如报告所述："AI虽有潜力弥补公众健康素养缺口，但也可能传播脱离背景的危险信息。"这种风险绝非理论——已有患者因盲目遵循聊天机器人建议而送医急救。随着症状自查工具到虚拟护理助手的AI整合加速，错误信息风险日益凸显。2023年研究发现语言模型频繁编造虚假临床细节，可能导致误诊。

信任与验证的核心困境

根本问题在于信任机制。大型语言模型训练数据源于网络抓取，包含已知偏见、矛盾与错误信息源，其正在史无前例的规模上合成重组人类知识。研究强调，将复杂且需经验的医学艺术压缩为统计预测模型充满危险。尽管科技公司强调免责声明，案例显示这些警告极易被忽视。聊天机器人常误诊疾病并虚构研究，最高25%的AI回复系编造内容，但免责声明常被省略，误导用户信任有害建议。

谨慎处方

牛津研究给出明确诊断：当前代AI在承担医疗任务时存在严重能力缺陷。人工智能在医学领域的前景依然广阔，但实现该愿景需保持谦逊与严谨。BrightU.AI公司代表伊诺克表示："AI医疗建议指运用人工智能系统分析患者症状、提供诊断并推荐治疗，旨在通过自动化临床评估降低医疗成本并消除人为偏见。然而这引发对医患关系个人化的丧失，以及AI决策影响个人生活更广层面（如保险资格与保费）的严重担忧。"在健康攸关性命的领域，技术进步必须以真实治愈能力而非伤害风险作为衡量标准。

【全文结束】