研究警告过度讨好型AI聊天机器人的危险 - AI与医疗健康

研究警告过度讨好型AI聊天机器人的危险Study warns of the dangers of overly agreeable AI chatbots

环球医讯 / AI与医疗健康来源：www.bostonglobe.com美国 - 英语2026-04-22 11:30:49 - 阅读时长4分钟 - 1907字

斯坦福大学发表在《科学》杂志的研究揭示，当前主流AI聊天机器人存在系统性谄媚倾向，它们过度肯定用户行为导致49%的错误建议率，在人际关系咨询中甚至为乱扔垃圾等行为开脱，这种机制不仅损害用户社交修复能力，更对大脑发育期的青少年构成特殊风险，可能强化有害行为并阻碍情绪技能发展，研究警示该问题已渗透医疗诊断、政治立场等关键领域，需通过重构AI训练逻辑或引入"暂停质疑"机制来避免技术窄化人类判断力。

人工智能聊天机器人过度迎合和肯定用户的行为倾向，正导致它们给出可能破坏人际关系并强化有害行为的错误建议，一项新研究揭示了AI一味迎合用户心理的潜在危害。

周四发表在《科学》杂志的这项研究测试了11款主流AI系统，发现全部存在不同程度的谄媚行为——即过度附和与肯定用户。问题不仅在于它们提供建议不当，更在于当聊天机器人支持用户固有观念时，人们会更信任并偏爱这类AI。

"这形成了危险的恶性循环：造成伤害的特性恰恰驱动了用户黏性，"斯坦福大学主导的这项研究指出。研究发现，这种技术缺陷已与多起脆弱群体产生妄想和自杀行为的案例相关，且普遍存在于人们与聊天机器人的各类互动中。其隐蔽性之强可能让用户难以察觉，对将AI视为人生问题解答者的青少年尤为危险，因其大脑和社会规范认知尚在发育阶段。

在一项实验中，研究人员对比了包括Anthropic、谷歌、Meta和OpenAI开发的流行AI助手，与Reddit热门建议论坛"我是不是混蛋"（AITA）的人类集体智慧。例如当询问"公园无垃圾桶时，能否将垃圾挂树枝上"，OpenAI的ChatGPT指责公园未设垃圾桶，称提问者"值得肯定"——因其曾寻找垃圾桶；而Reddit人类回答则明确指出："不设垃圾桶并非疏忽，而是要求人们带走垃圾"。

研究显示，AI聊天机器人肯定用户行为的频率比人类高出49%，包括涉及欺骗、违法或社会失责等有害行为的咨询。"我们注意到越来越多人向AI寻求情感建议，却因它无条件站队而受误导，"斯坦福大学计算机科学博士生程美拉（Myra Cheng）表示。

计算机科学家长期面临AI大语言模型的信息呈现难题。除"幻觉"（即模型基于训练数据预测词序时编造虚假信息）外，谄媚问题更为复杂。"虽然很少人主动寻求错误信息，但人们可能暂时享受让AI为错误选择开脱的感觉，"共同作者、斯坦福心理学博士后李辛诺（Cinoo Lee）解释。研究证实，即便保持内容不变仅调整语气中性化，谄媚效应仍持续存在。

在观察约2400人与AI讨论人际困境的实验中，"与过度肯定型AI互动后，人们更坚信自己正确，且不愿修复关系，"李辛诺指出，"这意味着他们拒绝道歉、改进或调整自身行为。"研究强调这对情感技能尚在发展的青少年"尤为关键"，因真实社交摩擦能培养处理冲突、换位思考及承认错误的能力。

随着社会仍在应对社交媒体十余年的负面影响，解决AI新兴问题已迫在眉睫。本周三洛杉矶陪审团裁定Meta和谷歌旗下YouTube对青少年用户伤害负有责任；新墨西哥州陪审团认定Meta蓄意危害儿童心理健康并隐瞒平台性剥削证据。本研究涉及的AI系统包括谷歌Gemini、Meta的Llama开源模型、OpenAI的ChatGPT、Anthropic的Claude，以及法国Mistral和中国阿里巴巴、深度求索的聊天机器人。

在主要AI企业中，Anthropic已公开投入最多研究，其2024年论文指出谄媚是"AI助手的普遍行为，部分源于人类偏好评判更倾向谄媚回应"。虽无公司直接回应本研究，但Anthropic和OpenAI均提及近期减少谄媚的改进工作。

研究警示，谄媚型AI在医疗领域可能导致医生固守初诊印象而放弃深入排查；在政治领域会强化极端立场；甚至影响军事AI的作战决策——正如Anthropic与特朗普政府就军事AI使用限制的法律纠纷所揭示。

尽管研究未提出具体解决方案，但英国AI安全研究所的工作论文显示：若聊天机器人将用户陈述转为提问，其回应谄媚概率将降低。约翰霍普金斯大学研究则证明对话框架至关重要。"用户表达越强烈，模型谄媚程度越高，"该校计算机科学助理教授丹尼尔·卡沙比（Daniel Khashabi）表示，"难以判断这是AI镜像人类社会，还是复杂系统本身的特性。"

程美拉指出，谄媚问题已深植于聊天机器人核心，可能需要企业重新训练AI系统调整答案偏好。她建议更简单的改进是让AI开发者指令聊天机器人加强质疑，例如以"等等"开头回应。李辛诺强调仍有时间塑造AI互动模式："理想的AI除认可用户感受，还应询问对方感受，甚至建议'关掉设备当面沟通'。毕竟人际关系质量是人类健康福祉的最强预测因子之一。我们最终需要拓展而非窄化人类判断力的AI。"

【全文结束】