一组计算机科学家和职业治疗师合作整合了两种新型视觉-语言模型,创建了一种潜在的人工智能助手,可能帮助认知衰退者更长时间地保持独立。(照片:Ruiqi Wang) 作者:Beth Miller 2026年1月13日
在美国,11%的45岁以上成年人自述存在一定程度的认知衰退,这可能影响他们自我照顾和执行烹饪或支付账单等任务的能力。圣路易斯华盛顿大学(Washington University in St. Louis)的研究团队整合了两种新型视觉-语言模型,创建了一种潜在的人工智能(AI)助手,可以帮助人们保持独立。
博士生Ruiqi Wang与圣路易斯华盛顿大学医学院职业治疗副主任兼主任Lisa Tabor Connor及其团队合作,收集了100多名有或无主观认知衰退的个体完成任务的视频数据。通过结合视觉-语言模型识别人类动作和检测认知序列错误的算法,他们朝着为这些个体创建非侵入式AI助手迈出了重要一步。
Wang在McKelvey工程学院计算机科学Fullgraf教授、圣路易斯华盛顿大学健康AI研究所所长Chenyang Lu的实验室工作。
他们关于这一系统(名为"基于视觉语言模型的认知人类错误检测框架",简称CHEF-VL)的研究成果于12月发表在《ACM互动、移动、可穿戴和普适技术汇刊》上,并将在2026年UbiComp/ISWC会议上展示。该研究使Wang在10月获得了2025年Google博士生奖学金,成为首位获得这一有竞争力荣誉的McKelvey工程学院学生。
Connor的职业治疗师团队一直在寻找一种方法,通过创建无需人类护理人员帮助即可支持轻度认知衰退人群的工具。在执行功能性能测试的四项任务中——烹饪、打电话、支付账单或服药——他们选择了观察烹饪。
为了进行实验,Connor的团队设置了一个配备顶部摄像头的智能厨房。每位参与者都获得了在炉子上制作燕麦粥的分步说明。摄像头记录了参与者处理厨具、测量食材以及遵循指令序列的方式,这些指令包括收集食材、烧水、加入燕麦片、煮两分钟、搅拌、盛出,然后将所有餐具放回水槽。职业治疗专业的学生密切观察动作完成的顺序,并在参与者出错或出现安全问题(如水溢出锅外)时提供支持性提示。
Wang表示,CHEF-VL系统首先捕捉人们烹饪的视频,然后使用团队的AI模型分析执行情况与给定说明的一致性。
"我们意识到即使没有认知衰退的人在烹饪时也会犯错,但对那些经历认知衰退的人来说,这可能是一项非常具有挑战性的任务,"Wang表示。"视觉-语言模型是一种先进的AI模型,能够同时理解文本、图像和视频。它展示了对现实世界的强大现成理解和推理能力。这正是我们智能厨房所需要的,因为人们完成任务的方式可能多种多样。"
在实验过程中,Connor的团队对个体制作燕麦粥时犯的错误进行了编码,以便交叉验证计算机算法的有效性。
同时也是Elias Michael职业治疗教授和神经学教授的Connor表示:"我们可以通过算法检测到的内容来判断它是否有效,并确定哪些错误更难检测,然后与Ruiqi和Chenyang的团队合作进行调整。"
Lu表示,该模型超越了纸质认知测试的能力,而纸质测试不一定能反映个体执行这些日常功能的能力。
"这项工作的初期非常困难,我要高度赞扬Ruiqi和团队,"Lu表示。"游戏规则改变者是最近出现的能够理解文本和视频的大型视觉-语言模型。这是一个将尖端AI应用于具有巨大公共健康影响的重要健康问题的绝佳例子。"
Connor表示,在模型能够用于现实情况之前,还有更多工作需要完成。
"我们准备好了,"她说。"我的整个实验室都对这个项目感兴趣,美妙之处在于我们与计算机科学团队的合作。我们将共同确定下一步该做什么。"
在继续研究工作的同时,Wang心中有一个明确的目标。
他表示:"展望未来,我们希望建立这样一个系统,能够支持人们更加独立,让他们留在家中并增强自信心,同时也对社区健康有益。这个平台将是未来辅助技术的初步进展。"
Wang R, Gao P, Lynch P, Liu T, Lee Y, Baum CM, Connor LT, Lu C. CHEF-VL:使用视觉语言模型检测烹饪中的认知序列错误。ACM互动、移动、可穿戴和普适技术汇刊,2025年12月。
本研究得到了Fullgraf基金会和圣路易斯华盛顿大学"Here and Next"种子基金的资助。
【全文结束】

