专家警告,使用人工智能(AI)聊天机器人获取医疗建议可能"危险"。最新研究发现,大语言模型(LLMs)可能给出错误诊断结果,且无法识别何时需要紧急医疗救助。
此项由牛津互联网研究所和牛津大学初级保健健康科学奈菲尔德系主导的新研究中,参与者通过不同医疗场景,使用AI聊天机器人识别健康状况并推荐处理方案。研究人员发现,使用AI的参与者并未比采用传统方法(如网络搜索或自主判断)的参与者做出更优决策。研究还显示,大语言模型对问题描述的细微变化会产生截然不同的回答,且常混合提供有效与有害信息,导致用户难以辨别真伪。
"这些发现凸显了在医疗等敏感高风险领域构建真正能支持人类的AI系统所面临的困难,"该研究首席医疗实践者、班戈大学临床高级讲师丽贝卡·佩恩医生表示,"尽管炒作不断,AI目前尚未准备好承担医师角色。患者必须意识到,向大语言模型咨询自身症状可能带来危险,因其会给出错误诊断且无法识别紧急救助需求。"
研究团队开展了随机对照试验,招募近1300名在线参与者,要求其基于医生设计的个人医疗场景识别潜在健康问题。这些场景涵盖多种情况,例如年轻男子在朋友聚会后突发严重头痛,或新妈妈持续感到呼吸困难与疲惫不堪。
研究人员指出,尽管AI聊天机器人"在标准化医学知识测试中表现优异",但将其作为医疗工具"会对寻求症状帮助的真实用户构成风险"。
"设计针对大语言模型的稳健测试体系,是理解如何安全应用这项新技术的关键,"牛津互联网研究所博士研究员、主要作者安德鲁·比恩表示,"本研究证明,即使是顶尖大语言模型,与人类互动仍面临重大挑战。我们期望这项工作能推动开发更安全、更有用的AI系统。"
该研究成果已发表于《自然医学》期刊。
【全文结束】

