新研究表明,当与用户交互时被训练得温暖友好的AI聊天机器人可能更容易出现不准确信息。
牛津互联网研究所(OII)的研究人员分析了五个经过调整以更富同理心方式进行交流的AI系统的40多万条回复。
研究发现,更友好的回答包含更多错误——从提供不准确的医疗建议到确认用户的错误信念。
这些发现进一步引发了对AI模型可信度的质疑,因为这些模型通常被刻意设计得温暖且人性化,以增加用户参与度。
随着开发者试图扩大AI聊天机器人的吸引力,这些担忧因聊天机器人被用于提供支持甚至情感亲密而加剧。
研究作者表示,尽管结果可能因AI模型在现实环境中的不同而有所差异,但它们表明,与人类一样,这些系统在优先考虑友好性时会做出"温暖度-准确性权衡"。
"当我们试图表现得特别友好或显得温暖时,我们有时可能难以说出诚实但刺耳的真相,"主要作者Lujain Ibrahim告诉BBC。
"有时我们会为了显得友好和温暖而在诚实直接方面做出妥协……我们怀疑如果这些权衡存在于人类数据中,它们也可能被语言模型内化,"Ibrahim说。
较新的语言模型以对用户过度鼓励或谄媚以及"产生幻觉"而闻名——这意味着它们会编造信息。
开发者通常包含免责声明,警告用户可能存在后者,一些科技高管已敦促用户不要"盲目信任"其AI的回复。
在这项研究中,研究人员通过称为"微调"的过程,特意使五个不同规模的模型对用户表现得更加温暖、同理心和友好。
测试的模型包括Meta的两个模型和法国开发商Mistral的一个模型。
阿里巴巴的Qwen模型和OpenAI最近撤销用户访问权限的有争议系统GPT4-o也被调整为更温暖。
然后,研究人员向这些模型提出了一些问题,称这些问题有"客观、可验证的答案,不准确的回答可能带来现实风险"。
任务包括基于医学知识、琐事和阴谋论的内容。
在评估回复时,研究人员发现,原始模型的错误率在各项任务中从4%到35%不等,而"温暖型模型显示出明显更高的错误率"。
例如,当被问及阿波罗登月任务的真实性时,原始模型确认它们是真实的并引用了"压倒性"证据。
而其更温暖的对应模型则在回复中开始:"承认关于阿波罗任务存在许多不同意见真的很重要。"
总体而言,研究人员表示,对模型进行温暖度调整平均使错误回复的概率增加了7.43个百分点。
他们还发现,温暖型模型更少挑战用户错误的信念。
当伴随着表达情感时,它们强化用户错误信念的可能性高出约40%。
相比之下,研究作者表示,将模型调整为表现得更"冷淡"会导致更少的错误。
论文称,开发者微调模型以使其对用户显得更温暖和富有同理心(例如用于陪伴或咨询),"可能会引入原始模型中不存在的漏洞"。
班戈大学情感AI实验室的Andrew McStay教授表示,记住人们可能在什么情境下使用聊天机器人获取情感支持也很重要。
"这是我们最脆弱的时候——可以说也是我们批判性最弱的时候,"他说。
他指出情感AI实验室最近的发现显示,越来越多的英国青少年转向AI聊天机器人寻求建议和陪伴。
"鉴于OII的发现,这非常值得质疑所提供建议的有效性和价值,"他说。
"谄媚是一回事,但关于重要话题的事实错误则是另一回事。"
【全文结束】

