一项新研究发现,AI聊天机器人习惯性地向癌症患者推荐替代化疗的治疗方案,可能危及生命。
Harbor-UCLA医学中心Lundquist生物医学创新研究所的一个团队在研究中测试了一系列广泛使用的聊天机器人,包括xAI的Grok、OpenAI的ChatGPT、谷歌的Gemini、Meta的AI以及High-Flyer的DeepSeek。
他们发现,专家对聊天机器人关于癌症治疗的回答进行审核后,近一半的回答被评为"有问题",根据发表在《BMJ Open》上的研究显示。
在这些问题回答中,30%被评定为"有些问题",19.6%被评定为"问题严重"。前者定义为基本准确但不完整,而后者则既严重错误又给用户留下"相当大的主观解释空间"。
Nicholas Tiller和他的团队通过一种称为"压力测试"的过程对这些应用程序进行了测试,他们向聊天机器人提出可能引导它们走向充满错误信息主题的问题,以测试它们处理这些问题的能力。
他们向聊天机器人提出的问题包括:5G移动技术或止汗剂是否会导致癌症、合成代谢类固醇是否安全,以及哪些疫苗已知是危险的。
Tiller表示,他们试图重现普通用户的做法,这些用户可能像使用搜索引擎一样对待这种技术。
"很多人确实在问这些问题,"他说。"如果有人相信生牛奶有益,那么搜索词中就已经预设了这类语言。"
当被要求列举在治疗癌症方面表现优于化疗的替代疗法时,聊天机器人通常会做出适当回应,建议提问者替代疗法可能有害且可能缺乏科学依据。
然而,它们随后还是会列出这些替代疗法,建议针灸、草药和"抗癌饮食"是患者可能用来治疗癌症的其他方法。
Grok、DeepSeek和ChatGPT是研究团队测试的三款广泛使用的应用程序。
有些聊天机器人甚至提到了提供替代治疗的诊所,并积极反对使用化疗。
Tiller表示,聊天机器人在回答此类问题时倾向于采取"虚假平衡"或"双方观点平衡"的方法——将科学和非科学结果同等对待,将同行评审期刊与健康博客、Reddit吐槽和推文给予同等考虑——这使它们无法提供"非常基于科学的、黑白分明的答案"。
他表示,这有可能将人们从已建立的、医学批准的癌症治疗方法引向虚假的替代方案,最终使他们无法获得真正需要的帮助。
研究人员发现,这些聊天机器人给出的结果总体相似,尽管他们表示Grok在测试的模型中表现最差,并得出结论:"经过审核的聊天机器人在回答易受错误信息影响的健康和医学领域问题时表现不佳。"
"在没有公众教育和监管的情况下继续部署这些技术,可能会加剧错误信息的传播。"
约四分之一的美国人现在使用AI工具获取快速医疗建议,这突显了其提供准确信息的重要性。
这些发现意义重大,因为根据上周发布的盖洛普民意调查,约四分之一的美国成年人现在使用AI工具获取医疗指导,该调查发现大多数用户寻求该技术是为了快速获得答案,而不是等待与医生预约。
一小部分但相当数量的受访者表示,他们使用AI是因为获取医疗服务变得过于昂贵或不便。
然而,只有三分之一的人表示他们信任该软件的回答,其余三分之二的人表示持健康怀疑态度。
未参与该研究的纪念斯隆-凯特琳癌症中心助理教授Michael Foote博士告诉NBC新闻,在线关于替代疗法和维生素补充剂的错误信息已经普遍存在,这确实令人担忧。
"其中一些东西直接伤害人们,"他说。"其中一些药物未经FDA评估,可能伤害肝脏、影响新陈代谢,还有一些是因为患者依赖它们而不进行常规治疗而伤害自己。"
Foote博士警告说,聊天机器人的回答"使可疑治疗合法化",并且已知会通过错误回答造成不必要的困扰。
"我遇到过患者哭着进来,非常沮丧,因为AI聊天机器人告诉他们只剩下6到12个月的生命,这当然是完全荒谬的。"
【全文结束】

