一项突破性研究戳破了人工智能革命的炒作泡沫,警示AI聊天机器人频繁提供错误且不一致的医疗建议,对公众构成直接风险。2月9日发表在权威期刊《自然医学》的牛津大学研究成果给出清醒结论:尽管具备先进能力,大型语言模型在担任医生角色时存在危险缺陷。研究结果引发对医疗系统快速部署这些工具的紧迫质疑,并凸显实验室表现与真实人际互动间的关键脱节。
医疗炒作的现实检验
这项由医学专家和AI研究人员主导的研究,代表了针对公众医疗指导AI的最大规模真实场景测试。研究人员招募了近1300名英国成年人参与详细医疗情景模拟。参与者被分为若干组,部分使用GPT-4o、Llama 3和Command R+等流行AI模型获取辅助,对照组则采用传统方法。结果令人震惊:使用AI的组别表现不比对照组更好,某些方面甚至更差。AI使用者正确识别相关疾病的概率不足34.5%,与传统方法相当;而对照组识别正确疾病的概率比依赖AI的组别高出1.76倍。
能力幻觉的破灭
关键发现揭示了AI在受控测试与真实人际互动中的表现鸿沟。当研究人员将医疗情景直接输入AI模型进行标准化测试时,系统表现优异,疾病识别准确率达94.9%。然而这种技术优势在复杂的人际互动现实中彻底崩塌。首席医学研究员丽贝卡·佩恩医生强调,该发现应视为明确警告:语言模型尚未准备好承担医生职责,向其咨询症状可能引发危险,因其可能提供错误诊断或未能识别紧急医疗需求。
人际互动为何击垮AI
用户常因不知所需信息而提供不完整描述,AI模型则对问题表述方式高度敏感,仅因细微措辞差异便给出截然不同的建议。例如两名描述相似中风症状的用户,竟从同一AI获得相反的医疗建议。此外,聊天机器人通常混杂提供准确与错误信息,迫使用户自行分辨矛盾建议。资深作者亚当·马迪医生称这种差距是警醒时刻,主张AI系统在确认安全前需经历类似临床试验的严格人机协同测试。
在公众使用激增中的仓促部署
此项警示性研究恰逢科技公司加速向医疗领域推进AI之际。2025年11月英国调查显示,超三分之一居民已使用AI支持心理健康。专业医学机构坚持认为,AI仅应补充而非取代医师判断,正因其无法进行身体检查或理解患者生活全貌。正如报告所述:"AI虽有潜力弥补公众健康素养缺口,但也可能传播脱离背景的危险信息。"这种风险绝非理论——已有患者因盲目遵循聊天机器人建议而送医急救。随着症状自查工具到虚拟护理助手的AI整合加速,错误信息风险日益凸显。2023年研究发现语言模型频繁编造虚假临床细节,可能导致误诊。
信任与验证的核心困境
根本问题在于信任机制。大型语言模型训练数据源于网络抓取,包含已知偏见、矛盾与错误信息源,其正在史无前例的规模上合成重组人类知识。研究强调,将复杂且需经验的医学艺术压缩为统计预测模型充满危险。尽管科技公司强调免责声明,案例显示这些警告极易被忽视。聊天机器人常误诊疾病并虚构研究,最高25%的AI回复系编造内容,但免责声明常被省略,误导用户信任有害建议。
谨慎处方
牛津研究给出明确诊断:当前代AI在承担医疗任务时存在严重能力缺陷。人工智能在医学领域的前景依然广阔,但实现该愿景需保持谦逊与严谨。BrightU.AI公司代表伊诺克表示:"AI医疗建议指运用人工智能系统分析患者症状、提供诊断并推荐治疗,旨在通过自动化临床评估降低医疗成本并消除人为偏见。然而这引发对医患关系个人化的丧失,以及AI决策影响个人生活更广层面(如保险资格与保费)的严重担忧。"在健康攸关性命的领域,技术进步必须以真实治愈能力而非伤害风险作为衡量标准。
【全文结束】

