最近的一项调查发现,数百万美国人正在向AI聊天机器人寻求医疗建议,常常代替咨询人类医生。
尽管研究人员不断发现基于大语言模型的工具存在严重缺陷,这些工具据称可以提供医疗记录摘要并根据简单文本提示提供健康建议。例如,幻觉仍然是一个巨大的未解决的问题,从AI模型基于从未提供给它们的图像生成详细的临床发现,到被研究人员为了欺骗它们而发明的假疾病所迷惑。
简而言之,难怪科学家们正在质疑患者、医疗提供者或医疗系统是否应该采用AI,特别是考虑到实际效益的证据经常缺乏。顶级医学期刊《自然医学》周二发表的一篇严厉社论指出,"AI工具为患者、医疗提供者或医疗系统创造价值的证据仍然稀缺。"
社论中写道:"然而,在出版物和产品材料中,关于临床影响的声明越来越普遍,尽管在这些声明被认为可信之前应该需要什么级别的证据尚无明确共识。" "结果不仅是科学上的不确定性,而且往往是过早的实施和采用。"
因此,这篇文章呼吁建立一个"评估AI医疗技术的框架,包括评估指标和基准",这是"迫切需要的。"
AI工具在完美的实验条件下通常似乎能提供引人信服的医疗建议,但在现实世界中却难以应对。《美国医学会杂志·医学》最近的一项研究发现,当提供更模糊的症状时,前沿AI模型有80%以上的时间无法产生正确的诊断。
AI在临床研究中的使用主题也仍然存在争议。虽然大语言模型擅长总结和分析数据并在回答查询时发挥作用,但研究人员继续警告我们正被它们的重大局限性所蒙蔽。
哈佛医学院外科助理教授Jamie Robertson去年在一份声明中说:"我认为AI可以帮助加快许多繁琐且具有挑战性的流程。它可以帮助我们编写数据分析代码,甚至提出场景建议。"
"但对于参与临床研究并与AI互动的人来说,了解正确和错误的应用以及正确的上下文至关重要,"她补充道。
研究人员警告说,过度依赖AI工具可能导致牺牲科学严谨性,引发了对医疗领域过度概括——可能还有幻觉生成——的数据激增的担忧。
在一个特别生动的演示中,哥德堡大学医学研究员Almira Osmanovic Thunström将两项明显伪造的研究上传到预印本服务器,以欺骗大型语言模型认为一种虚构的皮肤病是真实的。没过多久,其他同行评审期刊就发表了引用这些预印本的论文(后来被撤回),突显出对其有效性的明显质疑。
《自然医学》社论总结道:"下一阶段的进展不仅取决于更好的模型和新应用,还取决于对如何定义、评估和传达临床影响有更明确的期望。如果没有声明和证据之间的明确联系,医疗AI可能会比其真实价值被理解的速度更快地被采用。"
【全文结束】

