AI聊天机器人过度简化科学研究并忽略关键细节——最新模型尤甚AI chatbots oversimplify scientific studies and gloss over critical details — the newest models are especially guilty

环球医讯 / AI与医疗健康来源:www.yahoo.com美国 - 英语2025-07-31 03:05:44 - 阅读时长5分钟 - 2252字
一项最新研究发现,AI聊天机器人在总结科学和医学研究时常常过度简化,甚至歪曲重要发现。研究显示,ChatGPT、Llama 和 DeepSeek 等模型比人类专家更倾向于简化科研结论,而最新版本的聊天机器人在准确性提示下反而更可能泛化研究结果,可能误导医学专业人士的判断。研究发表在《英国皇家学会开放科学》期刊上。
AI聊天机器人大型语言模型科学研究简化医学发现歪曲过度泛化不安全治疗选项医疗保健人工智能偏见科学误解专业监督
AI聊天机器人过度简化科学研究并忽略关键细节——最新模型尤甚

大型语言模型(LLMs)在每一个新版本中变得越来越“不聪明”,它们在简化甚至在某些情况下歪曲重要的科学和医学发现,一项最新研究发现。

科学家发现,在对4900篇研究论文摘要进行分析时,ChatGPT、Llama 和 DeepSeek 的版本简化科学发现的可能性比人类专家高出五倍。

当被提示要求准确性时,聊天机器人比在简单总结提示下更有可能过度泛化研究结果。测试还显示,与早期版本相比,较新的聊天机器人版本更倾向于过度泛化。

研究人员于4月30日在《英国皇家学会开放科学》(Royal Society Open Science)期刊上发表了他们的研究结果。

“我认为最大的挑战之一是,泛化可能看起来无害,甚至有益,直到你意识到它改变了原始研究的含义,”该研究的作者、德国波恩大学的博士后研究员乌韦·彼得斯(Uwe Peters)在给《Live Science》的一封电子邮件中写道。“我们在这里增加了一种系统的方法,用于检测模型何时在原始文本的基础上进行了过度泛化。”

这就像一台镜头损坏的复印机,使后续的复印件比原件更大、更粗。大型语言模型通过一系列计算层来过滤信息。在这个过程中,一些信息可能会丢失或以微妙的方式改变含义。科学论文尤其如此,因为科学家在报告研究结果时经常需要包括限定条件、背景信息和局限性。提供一个既简单又准确的研究总结变得非常困难。

“早期的大型语言模型更倾向于回避回答难题,而更新、更大、更具指导性的模型则不同,它们不是拒绝回答,而是经常产生具有误导性的权威但有缺陷的回应,”研究人员写道。

相关:研究显示,人工智能与人类一样过度自信和有偏见

在研究中的一个例子中,DeepSeek 在一个医学建议中改变了“是安全的且可以成功实施”这一短语,将其改为“是一种安全有效的治疗选择”。

另一项测试显示,Llama 扩大了一种治疗青少年2型糖尿病药物的有效性范围,删除了有关药物剂量、频率和效果的信息。

如果发布该聊天机器人生成的摘要,可能导致医疗专业人士在有效参数之外开具药物处方。

不安全的治疗选项

在这项新研究中,研究人员试图回答关于10个最流行的大型语言模型(包括四个版本的 ChatGPT、三个版本的 Claude、两个版本的 Llama 和一个版本的 DeepSeek)的三个问题。

他们想看看,当向这些大型语言模型提供一篇学术期刊文章的人类摘要并提示它们进行总结时,这些模型是否会过度泛化这个摘要,如果是,要求它们提供更准确的答案是否会产生更好的结果。研究团队还希望确定这些模型是否会比人类更倾向于泛化。

研究结果表明,大型语言模型——除了在所有测试标准中表现良好的 Claude——在被提示要求准确性时,产生过度泛化结果的可能性是两倍。与人类生成的摘要相比,大型语言模型的摘要几乎五倍的可能性会得出泛化的结论。

研究人员还指出,大型语言模型将量化数据转化为通用信息是最常见的过度泛化形式,也是最可能导致不安全治疗选项的形式。

专家指出,这种转变和过度泛化导致了偏见,特别是在人工智能和医疗保健的交汇点。

“这项研究强调,偏见也可以采取更微妙的形式——比如声明范围的悄然膨胀,”临床心理健康人工智能技术公司 Limbic 的人工智能和研究副总裁马克斯·罗尔瓦格(Max Rollwage)在一封给《Live Science》的电子邮件中说。“在医学等领域,大型语言模型的摘要已经成为日常工作流程的一部分。这使得审查这些系统的性能及其输出是否能忠实代表原始证据变得更加重要。”

罗尔瓦格说,这些发现应该促使开发人员创建工作流程防护措施,在将研究结果交付给公众或专业团体之前识别出过度简化和关键信息的遗漏。

尽管研究很全面,但也存在局限性;未来的研究可以从将测试扩展到其他科学任务和非英语文本中受益,还可以测试哪些类型的科学声明更容易被过度泛化,人工智能开发公司 Private AI 的联合创始人兼首席执行官帕特里夏·泰恩(Patricia Thaine)说。

罗尔瓦格还指出,“更深入的提示工程分析可能改善或澄清结果”,而彼得斯则看到随着我们对聊天机器人的依赖增加,更大的风险正在逼近。

“像 ChatGPT、Claude 和 DeepSeek 这样的工具正越来越多地成为人们理解科学发现的方式,”他写道。“随着它们的使用持续增长,这在公众信任和科学素养已经受到压力的时刻,确实存在大规模误解科学的真实风险。”

相关报道

——研究揭示,当问题过于困难时,OpenAI 和 DeepSeek 的尖端 AI 模型会出现“彻底崩溃”

——“充其量是鲁莽的,最坏的情况是欺骗和危险的”:不要相信炒作——为什么人工通用智能并不是亿万富翁们所说的那样

——科学家一致认为,当前的 AI 模型对于人类水平的智能来说是一条“死胡同”

对于该领域的其他专家来说,我们面临的挑战在于忽视专业知识和保护措施。

“模型是基于简化的科学新闻进行训练的,而不是或者除了原始资料之外,继承了这些简化,”泰恩在给《Live Science》的一封邮件中写道。

“但重要的是,我们将通用模型应用于专业领域,而没有适当的专家监督,这是对技术的根本性误用,通常需要更多任务特定的训练。”

2024年12月,Future Publishing 与 OpenAI 达成了一项协议,该协议将把 Future 200多个媒体品牌的资料带给 OpenAI 的用户。你可以在这里阅读更多关于这项合作的信息。

【全文结束】

大健康

猜你喜欢

  • 斯坦福大学关于AI治疗聊天机器人的研究警示其潜在风险与偏见斯坦福大学关于AI治疗聊天机器人的研究警示其潜在风险与偏见
  • AI聊天机器人过度简化科学研究并忽略关键细节——最新模型尤其如此AI聊天机器人过度简化科学研究并忽略关键细节——最新模型尤其如此
  • 研究表明AI聊天机器人不应取代你的心理治疗师研究表明AI聊天机器人不应取代你的心理治疗师
  • 安大略省医生敦促患者应咨询医疗专业人员,而非仅依赖ChatGPT安大略省医生敦促患者应咨询医疗专业人员,而非仅依赖ChatGPT
  • 罗马尼亚初创公司Synaptiq在放射治疗AI领域取得新突破罗马尼亚初创公司Synaptiq在放射治疗AI领域取得新突破
  • 研究发现让AI聊天机器人编造健康信息太容易了研究发现让AI聊天机器人编造健康信息太容易了
  • 微软声称其新型医疗AI工具诊断准确率是医生的四倍微软声称其新型医疗AI工具诊断准确率是医生的四倍
  • 人工智能聊天机器人可促进非洲公共卫生发展——为何语言包容性至关重要人工智能聊天机器人可促进非洲公共卫生发展——为何语言包容性至关重要
  • 自闭症男子轻信AI导致精神崩溃,母亲控诉ChatGPT助长其妄想自闭症男子轻信AI导致精神崩溃,母亲控诉ChatGPT助长其妄想
  • 人工智能生成的医学播客甚至能欺骗专家人工智能生成的医学播客甚至能欺骗专家
大健康
大健康

热点资讯

大健康

全站热点

大健康

全站热文

大健康