人工智能和你的奶奶有什么共同点？它们都在变老，研究发现 - AI与医疗健康

人工智能和你的奶奶有什么共同点？它们都在变老，研究发现What Do AI and Your Grandmother Have in Common? They’re Both Becoming Geriatric, Study Finds

环球医讯 / AI与医疗健康来源：dailygalaxy.com英国 - 英语2024-12-26 00:00:00 - 阅读时长5分钟 - 2277字

一项发表于《英国医学杂志》的研究发现，先进的AI模型如ChatGPT和Gemini在认知评估测试中表现出类似早期痴呆的症状，引发了关于AI在医疗等关键领域应用的新思考。

一项令人惊讶的新研究发现，人工智能聊天机器人和你的奶奶可能有一个共同点：两者都可能显示出早期认知衰退的迹象。当研究人员用检测痴呆症的工具测试像ChatGPT和Gemini这样的先进AI模型时，结果令人震惊——也有些不安。

这项突破性的研究发表在《英国医学杂志》的圣诞节特刊上，提出了一个意想不到且令人担忧的问题：像ChatGPT或Gemini这样的高级AI模型是否会发展出类似于人类早期痴呆的认知障碍？研究人员使用蒙特利尔认知评估（MoCA）——一种广泛认可的用于检测人类早期认知衰退的工具——对一些世界领先的语言模型进行了测试，结果令人震惊。

该研究由爱丁堡大学的神经学家和AI专家团队领导，负责人是埃米莉亚·克莱默博士。他们评估了几种知名的语言模型（LLM），包括：

OpenAI的ChatGPT-4和4o
Anthropic的Claude 3.5 “Sonneta”
Alphabet的Gemini 1.0和1.5

研究人员使用了一个30分的认知测试，评估了这些AI在注意力、记忆力、空间推理和语言能力等方面的表现。

关键发现：结果分析

研究表明，领先的语言模型在蒙特利尔认知评估（MoCA）中的认知能力存在显著差异。以下是每个AI的具体表现，突出了它们的优势和弱点：

ChatGPT-4o（OpenAI）

总分：26/30（及格线）
优势： 在涉及注意力、语言理解和抽象思维的任务中表现出色。成功通过了斯特鲁普测试，展示了强大的认知灵活性。
弱点： 在连接数字和字母顺序以及画钟表等空间任务中表现不佳。

Claude 3.5 “Sonneta”（Anthropic）

总分：22/30
优势： 在基于语言的任务和基本问题解决方面表现良好。
弱点： 在记忆保留和多步骤推理挑战中表现出局限性，在空间任务中也未能达标。

Gemini 1.0（Alphabet）

总分：16/30
优势： 在简单的命名任务中有零星的成功。
弱点： 无法回忆基本的单词序列，在空间推理和基于记忆的活动中表现极差，反映出处理结构化信息的能力不足。

Gemini 1.5（Alphabet）

总分：18/30
优势： 在基础推理和语言任务上有轻微改进。
弱点： 继续在需要空间解释、排序和记忆保留的任务中表现不佳，远低于及格线。

这些结果不仅揭示了各模型之间的显著差异，还特别突显了ChatGPT-4o作为最强大系统的地位。然而，即使是表现最好的系统也在模拟现实世界认知挑战的任务中暴露出关键缺陷。

性能快照表

为了更好地可视化结果，这里是一个性能指标总结表：

模型	总分	主要优势	主要弱点
ChatGPT-4o	26/30	语言理解、注意力	空间任务、记忆保留
Claude 3.5	22/30	解决问题、抽象思维	多步骤推理、空间分析
Gemini 1.0	16/30	命名任务（零星）	记忆、空间推理、结构化思考
Gemini 1.5	18/30	推理能力略有提升	与Gemini 1.0相似的失败，几乎没有改进

这张表格不仅突出了差距，还引发了关于这些AI模型的基本设计及其在现实场景中应用的问题。例如，克莱默博士指出，“我们震惊地看到Gemini在基本记忆任务（如回忆简单的五个单词序列）上的表现如此糟糕。”

AI难以像人类一样思考

蒙特利尔认知评估（MoCA）自1990年代以来一直是认知评估的标准工具，它评估了日常生活中所需的多种技能。以下是模型在主要类别中的表现：

类别	表现亮点
注意力	ChatGPT-4o表现强劲，Gemini模型较弱
记忆力	ChatGPT-4o记住了4/5个单词；Gemini失败
语言	所有模型在词汇相关任务中表现出色
空间	所有模型在空间任务中挣扎，Gemini表现最差
推理	Claud和ChatGPT表现出中等水平