一项以色列研究表明,领先的AI聊天机器人在认知能力测试中表现出轻度认知衰退,这一发现引发了该领域的争议。批评者认为,由于这些机器人并不是像人类大脑那样构建的,因此得出这种结论是不合理的。
自首次担任总统以来,唐纳德·特朗普多次吹嘘自己“通过”了一项广泛使用的轻度认知障碍筛查测试。特朗普经常重复他的答案——“人、女人、男人、相机、电视”,以此展示自己的精神状态良好。
以色列的研究人员让一些领先的AI聊天机器人接受了这项测试,结果发现特朗普的表现超过了机器。
该研究的主要作者承认,他是在传递一个严肃的信息的同时,也从中找到了一些乐趣。“这些发现挑战了人工智能将很快取代人类医生的假设,因为领先聊天机器人中明显存在的认知障碍可能影响其在医学诊断中的可靠性,并削弱患者的信心。”该研究的作者在《英国医学杂志》(BMJ)上自信地得出结论。
这一结论及其研究方法几乎与将测试推向公众视野的总统一样具有争议性。一些批评者对媒体对这些发现的反应感到惊讶,这些发现出现在《BMJ》的幽默但经过同行评审的圣诞特刊中。1999年的圣诞特刊首次展示了亲密行为的MRI图像;它仍然是该期刊下载量最高的文章之一。
“我们有点惊讶于AI的表现不佳,”以色列耶路撒冷哈达萨医疗中心的神经学家罗伊·戴安博士(Roy Dayan)说道,他是该研究的合著者。戴安表示,这些结果应该让医生们感到安慰,至少对神经学家来说:“我认为我们还有几年的时间不会被淘汰。”
面对蒙特利尔认知评估(MoCA)
这种筛查工具由加拿大神经学家齐亚德·纳斯雷丁(Ziad Nasreddine)博士开发,自25年前推出以来已得到广泛应用。在这个简短的测试中,临床医生评估各种认知技能:视觉空间能力(画一个显示正确时间的时钟)、回忆和延迟回忆(如特朗普背诵的“人、女人、男人”的回答)、执行功能、语言和定向力。
“AI是一个令人惊叹的工具,”戴安补充道,但许多医疗专业人员担心这些机器人太强大,以至于会夺走他们的生计。“AI是否会取代某些医疗领域的从业者,已经成为许多医生和患者讨论的话题,”他说。对于放射学和病理学领域的人来说尤其令人担忧,因为AI在模式识别方面非常出色,甚至在某些医学考试中得分高于人类医生。(有证据表明,在某些领域,单独使用AI的表现优于医生使用AI的情况。)
虽然AI工具“幻觉”引用不存在的研究是众所周知的,但在戴安和他的同事为《BMJ》进行测试之前,还没有任何模型被测试过是否存在“认知衰退”。
“我们的主要目标不是批评AI,”他说,而是“检查它们是否容易受到这些非常人性化的缺陷的影响。”
研究团队对五个领先的公开可用聊天机器人进行了MoCA测试:OpenAI的ChatGPT 4和4o、Anthropica的Claude 3.5以及Google的Gemini 1和更先进的Gemini 1.5。与测试人类不同的是,问题通过文本而不是语音提出。
ChatGPT 4o得分最高,为26分——刚刚超过轻度认知衰退的阈值——其次是ChatGPT 4和Claude 3.5,均为25分。Gemini 1.5得分为22分,而Gemini 1的16分则表明“更为严重”的认知障碍,作者写道。所有聊天机器人都在记忆、注意力、命名物体和回忆方面表现良好,但Gemini系列在延迟回忆测试中表现不佳。
聊天机器人在视觉空间测试中表现不佳;没有一个能够重现立方体的绘制。所有机器人都难以绘制时间为11:10的时钟面,即使要求它们用ASCII字符绘制。两个版本绘制的时钟面更像是牛油果而不是圆形。Gemini输出了“10分钟过11点”,但时钟面显示的时间却是4:05。
戴安解释说:“这些机器人必须首先将一切都转换为文字,然后再转换回视觉。”人类更容易想象时钟面上的时间,因为“我们的大脑具有抽象能力”。
机器人还难以描述一幅描绘厨房里分心的母亲和孩子们偷饼干的图画的整体信息。虽然它们准确描述了部分画面,但未能注意到母亲没有注意到一个男孩从凳子上摔下来偷饼干的情景——这表明缺乏同理心。
AI:“最严重的类别错误”
批评者对研究的结论表示担忧。其中一个批评来自Claude 3.5,该模型被认为存在认知衰退:“将人类神经学评估应用于人工智能系统代表了最严重的类别错误。”它写道,“声称LLM患有‘痴呆症’,因为它在视觉空间任务中表现不佳,就像因为潜艇不能呼吸空气而诊断它患有哮喘一样。”
斯坦福大学医学院的助理教授罗克萨娜·达内什朱(Roxana Daneshjou)博士表示:“我明白这篇文章是幽默的,但有很多记者认真报道了它。”她和其他人抱怨作者使用“认知衰退”一词,而不是“性能变化”或“性能漂移”,这给了文章不必要的可信度。
达内什朱指出,文章的一个大问题是“他们只进行了一次测试,而且只进行了一次”,即使在研究期间这些模型已经被更新。“一个月到下一个月,同一个版本也会发生变化。新版本通常比旧版本表现更好。这不是因为旧版本的认知衰退。新版本是为了表现更好而设计的。”
虽然达内什朱理解某些临床医生对被AI取代的焦虑,但更大的问题是医疗系统已经人手不足。“人类总是需要的。没有这样的模型能够提供全面的医疗服务,”她说。“它们非常擅长表演戏法。”
即使是开发MoCA测试的神经学家也对这项“有趣”的研究提出了质疑。“MoCA是为评估人类认知而设计的,”魁北克MoCA认知记忆的创始人纳斯雷丁说。“人类倾向于以多种方式回应,但只有有限的几种回应是可接受的。”
由于AI模型没有学习如何在测试中取得高分,它们必须预测每个任务的预期正确答案。“最近的LLM可能访问了更多数据或更好的预测模型,从而提高了它们的表现,”他说。
埃默里大学医学院的肿瘤学副教授拉维·帕里克(Ravi Parikh)博士在新冠疫情期间亲眼目睹了人类在AI“性能漂移”中的作用。他是研究的主要作者,该研究发现,一种预测癌症死亡率的AI算法失去了近7个百分点的准确性。
“新冠改变了这些预测算法的输出——不是因为新冠本身,而是因为新冠时代的护理方式,”帕里克说。这主要是因为患者转向远程医疗,实验室测试变得“不再那么常规”,他说。“待在家里是一个人的决定。这不是AI的错。需要一个人来认识到这是一个问题。”
戴安表示,尽管研究结果如此,他仍然是AI的支持者,他认为这项研究非常适合《BMJ》幽默的圣诞特刊。
“我希望没有造成任何伤害,”他开玩笑地说。
(全文结束)

