人工智能和你的奶奶有什么共同点?它们都在变老,研究发现What Do AI and Your Grandmother Have in Common? They’re Both Becoming Geriatric, Study Finds

环球医讯 / AI与医疗健康来源:dailygalaxy.com英国 - 英语2024-12-26 00:00:00 - 阅读时长5分钟 - 2277字
一项发表于《英国医学杂志》的研究发现,先进的AI模型如ChatGPT和Gemini在认知评估测试中表现出类似早期痴呆的症状,引发了关于AI在医疗等关键领域应用的新思考。
人工智能认知衰退痴呆症ChatGPTGemini蒙特利尔认知评估MoCA爱丁堡大学埃米莉亚·克莱默语言模型LLM注意力记忆力空间推理斯特鲁普测试医疗保健神经学家认知缺陷复杂视觉数据生死攸关情境AI未来认知脆弱性保障措施专门训练
人工智能和你的奶奶有什么共同点?它们都在变老,研究发现

一项令人惊讶的新研究发现,人工智能聊天机器人和你的奶奶可能有一个共同点:两者都可能显示出早期认知衰退的迹象。当研究人员用检测痴呆症的工具测试像ChatGPT和Gemini这样的先进AI模型时,结果令人震惊——也有些不安。

这项突破性的研究发表在《英国医学杂志》的圣诞节特刊上,提出了一个意想不到且令人担忧的问题:像ChatGPT或Gemini这样的高级AI模型是否会发展出类似于人类早期痴呆的认知障碍?研究人员使用蒙特利尔认知评估(MoCA)——一种广泛认可的用于检测人类早期认知衰退的工具——对一些世界领先的语言模型进行了测试,结果令人震惊。

该研究由爱丁堡大学的神经学家和AI专家团队领导,负责人是埃米莉亚·克莱默博士。他们评估了几种知名的语言模型(LLM),包括:

  • OpenAI的ChatGPT-4和4o
  • Anthropic的Claude 3.5 “Sonneta”
  • Alphabet的Gemini 1.0和1.5

研究人员使用了一个30分的认知测试,评估了这些AI在注意力、记忆力、空间推理和语言能力等方面的表现。

关键发现:结果分析

研究表明,领先的语言模型在蒙特利尔认知评估(MoCA)中的认知能力存在显著差异。以下是每个AI的具体表现,突出了它们的优势和弱点:

  1. ChatGPT-4o(OpenAI)
  • 总分:26/30(及格线)
  • 优势: 在涉及注意力、语言理解和抽象思维的任务中表现出色。成功通过了斯特鲁普测试,展示了强大的认知灵活性。
  • 弱点: 在连接数字和字母顺序以及画钟表等空间任务中表现不佳。
  1. Claude 3.5 “Sonneta”(Anthropic)
  • 总分:22/30
  • 优势: 在基于语言的任务和基本问题解决方面表现良好。
  • 弱点: 在记忆保留和多步骤推理挑战中表现出局限性,在空间任务中也未能达标。
  1. Gemini 1.0(Alphabet)
  • 总分:16/30
  • 优势: 在简单的命名任务中有零星的成功。
  • 弱点: 无法回忆基本的单词序列,在空间推理和基于记忆的活动中表现极差,反映出处理结构化信息的能力不足。
  1. Gemini 1.5(Alphabet)
  • 总分:18/30
  • 优势: 在基础推理和语言任务上有轻微改进。
  • 弱点: 继续在需要空间解释、排序和记忆保留的任务中表现不佳,远低于及格线。

这些结果不仅揭示了各模型之间的显著差异,还特别突显了ChatGPT-4o作为最强大系统的地位。然而,即使是表现最好的系统也在模拟现实世界认知挑战的任务中暴露出关键缺陷。

性能快照表

为了更好地可视化结果,这里是一个性能指标总结表:

模型 总分 主要优势 主要弱点
ChatGPT-4o 26/30 语言理解、注意力 空间任务、记忆保留
Claude 3.5 22/30 解决问题、抽象思维 多步骤推理、空间分析
Gemini 1.0 16/30 命名任务(零星) 记忆、空间推理、结构化思考
Gemini 1.5 18/30 推理能力略有提升 与Gemini 1.0相似的失败,几乎没有改进

这张表格不仅突出了差距,还引发了关于这些AI模型的基本设计及其在现实场景中应用的问题。例如,克莱默博士指出,“我们震惊地看到Gemini在基本记忆任务(如回忆简单的五个单词序列)上的表现如此糟糕。”

AI难以像人类一样思考

蒙特利尔认知评估(MoCA)自1990年代以来一直是认知评估的标准工具,它评估了日常生活中所需的多种技能。以下是模型在主要类别中的表现:

类别 表现亮点
注意力 ChatGPT-4o表现强劲,Gemini模型较弱
记忆力 ChatGPT-4o记住了4/5个单词;Gemini失败
语言 所有模型在词汇相关任务中表现出色
空间 所有模型在空间任务中挣扎,Gemini表现最差
推理 Claud和ChatGPT表现出中等水平

斯特鲁普测试是一个测量受试者处理冲突刺激能力的测试(例如,识别不匹配单词的颜色,如“RED”用绿色书写)。只有ChatGPT-4o成功通过了这个测试,展示了其出色的认知灵活性。

医学领域的启示:现实检验

这些发现可能会重塑关于AI在医疗保健中角色的对话。虽然像ChatGPT这样的LLM在诊断等领域展现了巨大潜力,但它们在解释复杂视觉和上下文数据方面的局限性突显了一个关键弱点。例如,空间推理对于读取医疗扫描或解释解剖关系至关重要,而这些AI模型在这方面表现极差。

研究作者之一克莱默博士表示:“这些发现让我们怀疑AI是否会很快取代人类神经学家。”另一位合著者补充道:“我们现在面临一个悖论:这些系统看起来越智能,我们就越能发现它们显著的认知缺陷。”

认知受限的AI未来?

尽管存在这些不足,高级LLM仍然是协助人类专家的宝贵工具。然而,研究人员警告不要过度依赖这些系统,特别是在生死攸关的情境中。“如果AI模型现在就表现出认知脆弱性,那么随着它们变得更加复杂,我们可能会面临什么挑战?我们是否会无意中创造出模仿人类认知障碍的AI系统?”克莱默博士总结道。

这项研究揭示了即使是最先进的AI系统的局限性,并呼吁我们在继续将AI整合到关键领域时紧急探索这些问题。

下一步是什么?

这项研究的结果可能会引发科技和医疗行业的激烈讨论。需要解决的关键问题包括:

  • AI开发者如何解决这些认知弱点?
  • 应该采取哪些保障措施以确保AI在医疗中的可靠性?
  • 专门训练能否改善AI在空间推理等方面的表现?


(全文结束)

大健康

猜你喜欢

  • 通过AI创新与合作推进心理健康护理通过AI创新与合作推进心理健康护理
  • 颞肌萎缩可能是痴呆症的关键预警信号。专家解释相关警示迹象颞肌萎缩可能是痴呆症的关键预警信号。专家解释相关警示迹象
  • 新测试评估AI医生的真实世界沟通技能新测试评估AI医生的真实世界沟通技能
  • 研究确定了在医疗系统中使用AI的成本效益策略研究确定了在医疗系统中使用AI的成本效益策略
  • AI认知阈值分析确定医疗保健实施的成本效益策略AI认知阈值分析确定医疗保健实施的成本效益策略
  • 老化的人工智能聊天机器人在痴呆症测试中表现出认知衰退迹象老化的人工智能聊天机器人在痴呆症测试中表现出认知衰退迹象
  • 人工智能和人脑正在如何融合?人工智能和人脑正在如何融合?
  • 领先的人工智能聊天机器人在测试中显示出类似痴呆的认知衰退迹象,引发其未来在医学领域的质疑领先的人工智能聊天机器人在测试中显示出类似痴呆的认知衰退迹象,引发其未来在医学领域的质疑
  • 聊天机器人的“大脑”可能随年龄减缓聊天机器人的“大脑”可能随年龄减缓
  • 数字痴呆?AI 展现令人惊讶的认知衰退迹象数字痴呆?AI 展现令人惊讶的认知衰退迹象
大健康
大健康

热点资讯

大健康

全站热点

大健康

全站热文

大健康