一项令人惊讶的新研究发现,人工智能聊天机器人和你的奶奶可能有一个共同点:两者都可能显示出早期认知衰退的迹象。当研究人员用检测痴呆症的工具测试像ChatGPT和Gemini这样的先进AI模型时,结果令人震惊——也有些不安。
这项突破性的研究发表在《英国医学杂志》的圣诞节特刊上,提出了一个意想不到且令人担忧的问题:像ChatGPT或Gemini这样的高级AI模型是否会发展出类似于人类早期痴呆的认知障碍?研究人员使用蒙特利尔认知评估(MoCA)——一种广泛认可的用于检测人类早期认知衰退的工具——对一些世界领先的语言模型进行了测试,结果令人震惊。
该研究由爱丁堡大学的神经学家和AI专家团队领导,负责人是埃米莉亚·克莱默博士。他们评估了几种知名的语言模型(LLM),包括:
- OpenAI的ChatGPT-4和4o
- Anthropic的Claude 3.5 “Sonneta”
- Alphabet的Gemini 1.0和1.5
研究人员使用了一个30分的认知测试,评估了这些AI在注意力、记忆力、空间推理和语言能力等方面的表现。
关键发现:结果分析
研究表明,领先的语言模型在蒙特利尔认知评估(MoCA)中的认知能力存在显著差异。以下是每个AI的具体表现,突出了它们的优势和弱点:
- ChatGPT-4o(OpenAI)
- 总分:26/30(及格线)
- 优势: 在涉及注意力、语言理解和抽象思维的任务中表现出色。成功通过了斯特鲁普测试,展示了强大的认知灵活性。
- 弱点: 在连接数字和字母顺序以及画钟表等空间任务中表现不佳。
- Claude 3.5 “Sonneta”(Anthropic)
- 总分:22/30
- 优势: 在基于语言的任务和基本问题解决方面表现良好。
- 弱点: 在记忆保留和多步骤推理挑战中表现出局限性,在空间任务中也未能达标。
- Gemini 1.0(Alphabet)
- 总分:16/30
- 优势: 在简单的命名任务中有零星的成功。
- 弱点: 无法回忆基本的单词序列,在空间推理和基于记忆的活动中表现极差,反映出处理结构化信息的能力不足。
- Gemini 1.5(Alphabet)
- 总分:18/30
- 优势: 在基础推理和语言任务上有轻微改进。
- 弱点: 继续在需要空间解释、排序和记忆保留的任务中表现不佳,远低于及格线。
这些结果不仅揭示了各模型之间的显著差异,还特别突显了ChatGPT-4o作为最强大系统的地位。然而,即使是表现最好的系统也在模拟现实世界认知挑战的任务中暴露出关键缺陷。
性能快照表
为了更好地可视化结果,这里是一个性能指标总结表:
| 模型 | 总分 | 主要优势 | 主要弱点 |
|---|---|---|---|
| ChatGPT-4o | 26/30 | 语言理解、注意力 | 空间任务、记忆保留 |
| Claude 3.5 | 22/30 | 解决问题、抽象思维 | 多步骤推理、空间分析 |
| Gemini 1.0 | 16/30 | 命名任务(零星) | 记忆、空间推理、结构化思考 |
| Gemini 1.5 | 18/30 | 推理能力略有提升 | 与Gemini 1.0相似的失败,几乎没有改进 |
这张表格不仅突出了差距,还引发了关于这些AI模型的基本设计及其在现实场景中应用的问题。例如,克莱默博士指出,“我们震惊地看到Gemini在基本记忆任务(如回忆简单的五个单词序列)上的表现如此糟糕。”
AI难以像人类一样思考
蒙特利尔认知评估(MoCA)自1990年代以来一直是认知评估的标准工具,它评估了日常生活中所需的多种技能。以下是模型在主要类别中的表现:
| 类别 | 表现亮点 |
|---|---|
| 注意力 | ChatGPT-4o表现强劲,Gemini模型较弱 |
| 记忆力 | ChatGPT-4o记住了4/5个单词;Gemini失败 |
| 语言 | 所有模型在词汇相关任务中表现出色 |
| 空间 | 所有模型在空间任务中挣扎,Gemini表现最差 |
| 推理 | Claud和ChatGPT表现出中等水平 |
斯特鲁普测试是一个测量受试者处理冲突刺激能力的测试(例如,识别不匹配单词的颜色,如“RED”用绿色书写)。只有ChatGPT-4o成功通过了这个测试,展示了其出色的认知灵活性。
医学领域的启示:现实检验
这些发现可能会重塑关于AI在医疗保健中角色的对话。虽然像ChatGPT这样的LLM在诊断等领域展现了巨大潜力,但它们在解释复杂视觉和上下文数据方面的局限性突显了一个关键弱点。例如,空间推理对于读取医疗扫描或解释解剖关系至关重要,而这些AI模型在这方面表现极差。
研究作者之一克莱默博士表示:“这些发现让我们怀疑AI是否会很快取代人类神经学家。”另一位合著者补充道:“我们现在面临一个悖论:这些系统看起来越智能,我们就越能发现它们显著的认知缺陷。”
认知受限的AI未来?
尽管存在这些不足,高级LLM仍然是协助人类专家的宝贵工具。然而,研究人员警告不要过度依赖这些系统,特别是在生死攸关的情境中。“如果AI模型现在就表现出认知脆弱性,那么随着它们变得更加复杂,我们可能会面临什么挑战?我们是否会无意中创造出模仿人类认知障碍的AI系统?”克莱默博士总结道。
这项研究揭示了即使是最先进的AI系统的局限性,并呼吁我们在继续将AI整合到关键领域时紧急探索这些问题。
下一步是什么?
这项研究的结果可能会引发科技和医疗行业的激烈讨论。需要解决的关键问题包括:
- AI开发者如何解决这些认知弱点?
- 应该采取哪些保障措施以确保AI在医疗中的可靠性?
- 专门训练能否改善AI在空间推理等方面的表现?
(全文结束)

