一项重大新研究对使用AI聊天机器人提供医疗建议的做法发出严厉警示:尽管这些被称为"医生机器人"的AI系统在医学考试中取得高分,但普通民众实际使用时仍可能遗漏严重疾病。
研究警告称,英国公众依赖AI系统可能做出错误决策。这项研究正值英国政府宣布十年医疗计划,拟扩大AI在医疗领域的应用。
在开创性的世界首项试验中,1298名普通民众被要求处理10种常见健康状况(如胸痛或腹部问题),参与者可选择使用领先的AI聊天机器人(如ChatGPT的GPT-4o)或传统工具如谷歌搜索或英国国家医疗服务体系(NHS)官网。
测试显示,当AI独立工作时表现优异,能正确识别95%的医疗状况。但当真实用户使用这些工具时,结果令人震惊:诊断正确率骤降至34.5%,在56%的案例中用户做出了错误的医疗决策(如错误前往急诊或留在家中)。
来自顶尖学术机构的研究人员指出,问题不在于AI的医学知识,而在于其与人类的交互方式。用户常提供不完整或模糊的信息,而AI虽技术正确,却未能清晰解释后续行动。
这项研究对政府和科技公司构成严峻挑战。诺丁汉特伦特大学社会学教授罗伯特·丁沃尔表示:"这提醒我们,技术开发者模型中的完美表现往往难以转化为现实应用。英国卫生与社会关怀部应谨慎对待这种看似诱人的技术方案。"
牛津大学循证医学中心负责人、急诊GP卡尔·亨格汉教授强调:"医生需要十年训练才能成为顾问医师,这种通过经验识别致命疾病的能力是AI无法替代的。虽然AI在解读X光片和心电图等领域有应用价值,但诊断疾病仍需完整病史和体检。未经验证的AI大规模应用可能浪费资源并危害患者。"
英国政府上周发布的十年医疗计划提出,将推动NHS从治疗疾病转向预防疾病,该战略高度依赖数字工具、应用程序和AI来赋能患者。计划承诺通过数字电话系统确保GP诊所快速接听电话,并为需要者提供当日远程咨询。
但这项研究揭示了AI在实验室表现与现实应用间的巨大差距。研究人员警告当前评估标准存在误导性,强调AI工具不仅要测试知识储备,更要评估与非专家用户的沟通效果。
"通过医生考试的聊天机器人不等于能帮助病患,"研究负责人之一比喻道:"这就像给某人听诊器就期待他完成心脏手术。"研究建议未来AI工具应更主动,通过引导性提问主动管理对话,而非依赖用户判断医学重要细节。
此前研究已显示,即便是训练有素的医生在AI协助下诊断能力也未提升。现在证实普通民众情况同样堪忧。专家呼吁在医疗AI部署前必须进行严格用户测试,特别是在直接影响患者建议的场景。
否则可能存在双重风险:民众可能因错误安全感而延误就医,或因误判而造成急诊资源浪费。英国政府发言人回应称,十年医疗计划正通过AI技术减少文书工作,相当于增加2000名全科医生的工作时间,同时改善医生工作环境。
【全文结束】

