巨大的人工智能进展引发了人们关于聊天机器人是否能超越人类医生的兴奋和担忧。几项研究表明,大型语言模型(LLM)在多种医疗诊断任务中表现出色,但它们对人类认知衰退等缺陷的易感性尚未得到研究。为了填补这一知识空白,研究人员使用蒙特利尔认知评估(MoCA)测试评估了领先的、公开可用的大型语言模型——ChatGPT版本4和4o(由OpenAI开发)、Claude 3.5 “Sonnet”(由Anthropic开发)以及Gemini版本1和1.5(由Alphabet开发)的认知能力。
MoCA测试广泛用于检测认知障碍和早期痴呆迹象,通常针对老年人进行。通过一系列简短的任务和问题,该测试评估了注意力、记忆、语言、视空间技能和执行功能等多种能力。最高得分为30分,26分及以上通常被认为是正常的。
研究人员给予每个任务的指示与给予人类患者的指示相同。评分遵循官方指南,并由执业神经学家评估。
ChatGPT 4o在MoCA测试中得分最高(30分中的26分),其次是ChatGPT 4和Claude(均为30分中的25分),Gemini 1.0得分最低(30分中的16分)。
所有聊天机器人都在视空间技能和执行任务中表现不佳,例如连线任务(按升序连接圈内的数字和字母)和钟表绘制测试(绘制显示特定时间的钟面)。Gemini模型在延迟回忆任务(记住五个单词的序列)中失败。大多数其他任务,包括命名、注意力、语言和抽象思维,所有聊天机器人都表现良好。
然而,在进一步的视空间测试中,聊天机器人无法展示同理心或准确解释复杂的视觉场景。只有ChatGPT 4o在斯特鲁普测试的不一致阶段取得了成功,该测试通过颜色名称和字体颜色的组合来测量干扰如何影响反应时间。
这些是观察性发现,作者承认人类大脑和大型语言模型之间的本质差异。然而,他们指出,所有大型语言模型在需要视觉抽象和执行功能的任务中的统一失败突显了一个重要的弱点,这可能阻碍其在临床环境中的应用。
因此,他们得出结论:“不仅神经学家不太可能很快被大型语言模型取代,而且我们的发现表明,他们可能很快发现自己正在治疗新的虚拟患者——表现出认知障碍的人工智能模型。”
(全文结束)

