研究显示聊天机器人存在认知局限性Study shows chatbots’ cognitive limitations using dementia screening

环球医讯 / AI与医疗健康来源:www.news-medical.net英国 - 英语2024-12-19 14:00:00 - 阅读时长2分钟 - 911字
一项最新研究表明,几乎所有领先的大型语言模型(即“聊天机器人”)在广泛用于检测早期痴呆症迹象的认知测试中表现出轻度认知障碍,这一发现挑战了人工智能将很快取代人类医生的假设。
聊天机器人认知局限性大型语言模型医学诊断蒙特利尔认知评估临床应用视空间技能执行功能
研究显示聊天机器人存在认知局限性

巨大的人工智能领域进步引发了人们对于聊天机器人是否能超越人类医生的兴奋和担忧。几项研究表明,大型语言模型(LLMs)在多种医学诊断任务中表现得非常出色,但它们是否像人类一样容易受到认知衰退的影响尚未得到研究。

为了填补这一知识空白,研究人员使用蒙特利尔认知评估(MoCA)测试评估了领先的、公开可用的大型语言模型的认知能力。这些模型包括OpenAI开发的ChatGPT版本4和4o、Anthropic开发的Claude 3.5 “Sonnet”以及Alphabet开发的Gemini版本1和1.5。MoCA测试广泛用于检测认知障碍和早期痴呆症迹象,通常针对老年人。通过一系列简短的任务和问题,该测试评估了注意力、记忆、语言、视空间技能和执行功能等能力。最高分为30分,26分及以上通常被视为正常。

研究人员给予每个任务的指示与给予人类患者的指示相同。评分遵循官方指南,并由执业神经学家进行评估。ChatGPT 4o在MoCA测试中得分最高(30分中的26分),其次是ChatGPT 4和Claude(均为30分中的25分),Gemini 1.0得分最低(30分中的16分)。

所有聊天机器人都在视空间技能和执行任务方面表现不佳,例如连线任务(按升序连接圆圈内的数字和字母)和钟表绘制测试(绘制显示特定时间的钟面)。Gemini模型未能完成延迟回忆任务(记住五个单词的序列)。大多数其他任务,如命名、注意力、语言和抽象思维,聊天机器人都表现良好。

然而,在进一步的视空间测试中,聊天机器人无法表现出同理心或准确解释复杂的视觉场景。只有ChatGPT 4o成功完成了斯特鲁普测试的不一致阶段,该测试使用颜色名称和字体颜色的组合来测量干扰如何影响反应时间。

这些是观察性发现,作者承认人类大脑和大型语言模型之间的本质差异。然而,他们指出,所有大型语言模型在需要视觉抽象和执行功能的任务中普遍失败,突显了一个显著的弱点,这可能阻碍其在临床环境中的应用。因此,他们得出结论:“不仅神经学家短期内不太可能被大型语言模型取代,而且我们的发现表明,他们可能很快会发现自己治疗新的虚拟患者——表现出认知障碍的人工智能模型。”


(全文结束)

大健康

猜你喜欢

  • 研究发现抗生素使用与老年人认知衰退无关研究发现抗生素使用与老年人认知衰退无关
  • 假期如何影响您的医疗护理假期如何影响您的医疗护理
  • 聊天机器人未能通过标准认知测试聊天机器人未能通过标准认知测试
  • 益生菌与双相障碍和精神分裂症患者的认知及肠道健康益处相关益生菌与双相障碍和精神分裂症患者的认知及肠道健康益处相关
  • 老年人的好消息:研究发现抗生素与痴呆症无关老年人的好消息:研究发现抗生素与痴呆症无关
  • 儿童早期接触氟化物对认知神经发育的影响儿童早期接触氟化物对认知神经发育的影响
  • 假期可能如何影响你的医疗护理假期可能如何影响你的医疗护理
  • 抗生素可能与认知衰退无关抗生素可能与认知衰退无关
  • 领先的人工智能聊天机器人在测试中显示出类似痴呆的认知衰退迹象,引发其未来在医学领域的质疑领先的人工智能聊天机器人在测试中显示出类似痴呆的认知衰退迹象,引发其未来在医学领域的质疑
  • 数字痴呆?AI 展现令人惊讶的认知衰退迹象数字痴呆?AI 展现令人惊讶的认知衰退迹象
大健康
大健康

热点资讯

大健康

全站热点

大健康

全站热文

大健康