由计算机科学家和职业治疗师组成的研究团队合作整合了两种新型视觉-语言模型,创造出一种潜在的AI助手,可能帮助认知能力下降者更长时间地保持独立生活能力。在美国,11%的45岁以上成年人自述存在某种程度的认知能力下降,这可能影响他们自我照顾的能力,以及完成烹饪或支付账单等任务。圣路易斯华盛顿大学的研究团队整合了两种新型视觉-语言模型,创造出一种潜在的人工智能(AI)助手,可以帮助人们保持独立生活。
博士生Ruiqi Wang与WashU医学院职业治疗副教授兼主任Lisa Tabor Connor及其团队合作,收集了100多名有或无主观认知能力下降的个体完成任务的视频数据。通过结合能够识别人类行为的视觉-语言模型和检测认知序列错误的算法,他们朝着为这些人群创建非侵入式AI助手迈出了重要一步。
Wang在McKelvey工程学院计算机科学Fullgraf教授、圣路易斯华盛顿大学健康AI研究所主任Chenyang Lu的实验室工作。他们关于这一系统(命名为"基于视觉-语言模型的认知人类错误检测框架"(CHEF-VL))的研究成果于12月发表在《ACM交互、移动、可穿戴和泛在技术论文集》上,并将在2026年UbiComp/ISWC会议上展示。这项研究使Wang在10月获得了2025年Google博士奖学金,成为首位获得这一竞争性荣誉的McKelvey工程学院学生。
开发和测试智能厨房
Connor的职业治疗师团队正在寻找一种无需人类护理人员帮助就能帮助轻度认知能力下降者的方法。在执行功能绩效测试的四项任务(烹饪、打电话、支付账单或服药)中,他们选择观察烹饪。
在实验中,Connor的团队设置了一个配备顶部摄像头的智能厨房。每位参与者都收到在炉灶上制作燕麦粥的分步说明。摄像头捕捉了个人处理厨具、测量配料和遵循说明顺序的方式,这些说明包括收集食材、烧水、加入燕麦、煮两分钟、搅拌、盛出,然后将所有餐具放回水槽。职业治疗学生密切关注动作完成的顺序,并在参与者出错或出现安全问题(如水烧干溢出锅外)时提供支持性提示。
Wang表示,CHEF-VL系统首先捕获了人们烹饪的视频,然后使用团队的AI模型分析其表现如何与给定的说明相符。
"我们意识到即使没有认知能力下降的人在烹饪过程中也会犯错,但对经历认知能力下降的人来说,这可能是一项非常具有挑战性的任务,"Wang说。
AI模型的工作原理及未来计划
"视觉-语言模型是一种最先进的AI模型,能够同时理解文本、图像和视频。它展示了对现实世界强大的开箱即用的理解能力,以及推理能力。这正是我们在智能厨房中所需要的,因为人们完成任务的方式可能多种多样。"
在实验过程中,Connor的团队对制作燕麦粥时个人所犯的错误进行了编码,以便交叉验证计算机算法的有效性。
"我们可以通过算法检测到的内容来判断它是否有效,并确定哪些错误更难检测,然后与Ruiqi和Chenyang的团队合作进行调整,"同时担任Elias Michael职业治疗教授和神经病学教授的Connor说。
Lu表示,该模型超越了纸笔认知测试的能力,后者不一定能反映个人执行这些日常功能的能力。
"这项工作的初步阶段非常困难,我给Ruiqi和团队很多赞誉,"Lu说。"改变游戏规则的是最近出现的能够理解文本和视频的大型视觉-语言模型。这是将尖端AI应用于具有巨大公共卫生影响的重要健康问题的绝佳范例。"
Connor表示,在该模型可用于现实情况之前,还有更多工作要做。
"我们准备好了,"她说。"我的整个实验室都对这个项目感兴趣,美妙之处在于我们与计算机科学团队的合作。我们将一起找出下一步该做什么。"
在继续研究的同时,Wang有一个明确的目标。
"展望未来,我们希望构建这个系统,支持人们更加独立,留在家中并增强自信心,同时也对社区健康有益,"他说。"这个平台将是未来辅助技术向前迈出的初步一步。"
【全文结束】

