忘记我吧,机器人
我们确实见过人工智能模型的一些失常行为——但“痴呆”?这还是头一回听说。
根据发表在《英国医学杂志》(The BMJ)上的一项新研究,一些科技行业的领先聊天机器人明显表现出轻度认知障碍。而且,就像人类一样,这种影响随着年龄的增长而变得更加显著,较老的大语言模型表现最差。
这项研究的目的并不是要对这些人工智能进行医学诊断,而是为了反驳大量研究认为该技术已经足够成熟,可以在医疗领域使用,尤其是作为诊断工具的观点。
“这些发现挑战了人工智能将很快取代人类医生的假设,因为领先聊天机器人中显而易见的认知障碍可能会影响其在医疗诊断中的可靠性,并削弱患者的信心,”研究人员写道。
生成老年学
接受测试的“聪明人”包括OpenAI的GPT-4和GPT-4o;Anthropic的Claude 3.5 Sonnet,以及Google的Gemini 1.0和1.5。
当这些聊天机器人接受蒙特利尔认知评估(MoCA)测试时,该测试旨在检测早期痴呆迹象,得分越高表示认知能力越强,GPT-4o得分最高(30分中的26分,勉强达到正常范围),而Gemini系列得分最低(30分中的16分,非常糟糕)。
研究人员发现,所有聊天机器人都在大多数任务中表现出色,如命名、注意力、语言和抽象思维。
然而,它们在某些领域的表现却大打折扣。每个聊天机器人都在视觉空间和执行任务方面表现不佳,例如按升序连接圆圈内的数字。绘制一个显示特定时间的时钟也对这些人工智能来说过于困难。
令人尴尬的是,Gemini系列的两个模型在一项相对简单的延迟回忆任务中彻底失败,该任务涉及记住一个五词序列。这显然不表明其整体认知能力出色,但你可以理解为什么这对医生来说尤其成问题,因为医生必须处理患者告诉他们的任何新信息,而不仅仅是依赖于医疗记录上的内容。
你可能也希望你的医生不是个精神病患者。然而,根据测试结果,研究人员发现所有聊天机器人都表现出令人担忧的缺乏同理心——这是额颞叶痴呆的一个标志性症状,他们说。
记忆病房
将人工智能模型拟人化并像对待人类一样谈论它们是一种坏习惯。毕竟,这基本上是人工智能行业希望你做的事情。研究人员表示,他们意识到这一风险,承认大脑和大语言模型之间的本质差异。
但是,如果科技公司谈论这些人工智能模型时,仿佛它们已经是具有意识的生物,为什么不按照同样的标准来要求它们呢?
按照这些标准——即人工智能行业的标准——这些聊天机器人正在挣扎。
“不仅神经学家不太可能很快被大语言模型取代,而且我们的研究结果表明,他们可能很快会发现自己在治疗新的虚拟患者——表现出认知障碍的人工智能模型,”研究人员写道。
(全文结束)

