谷歌研究团队推出了SensorLM,这是一系列基础模型,旨在将可穿戴传感器流式传输的原始数据转化为自然语言描述。
题为"SensorLM:可穿戴传感器的语言学习"的论文于2025年7月28日发表在arXiv上。该论文描述了一个系统,该系统在来自127个国家103,643名同意参与的用户收集的5970万小时多模态传感器数据上进行了训练,使用的是Fitbit和Pixel Watch设备。
SensorLM的实际功能
SensorLM是一种传感器-语言模型,可将原始生理信号直接映射到自然语言描述。该系统使用分层字幕管道,从各种传感器统计数据自动生成详细描述,据谷歌描述,这产生了迄今为止已知最大的传感器-语言数据集之一。
其主要功能之一是零样本活动识别,这意味着该模型可以在从未接受过这些特定活动标记示例的显式训练的情况下,识别用户正在做什么。它还处理跨模态检索,将传感器读数与文本描述相互匹配,并生成总结生理状态的字幕。
谷歌表示,SensorLM在传感器理解任务上优于之前的专业方法和通用大型语言模型。该模型还展示了强大的扩展行为:向其提供更多的数据和计算资源,性能持续得到提升。
数据支撑
训练数据涵盖了5970万小时的匿名可穿戴传感器读数,相当于约6,814年的连续监测。这些数据是在2024年3月1日至5月1日期间,从127个国家提供明确研究使用同意的用户收集的。
这并非谷歌首次尝试可穿戴基础模型。2024年11月20日发表的先前研究详细介绍了使用来自165,000名用户超过4000万小时数据的努力。SensorLM代表了数据集规模的显著提升,同时将用户池从165,000缩小到103,643名用户。
宣布该论文的原始推文提到了"超过一万亿分钟"的可穿戴设备数据,来自"500万人"。arXiv上的同行评审论文引用了来自103,643名用户的5970万小时(约35.8亿分钟)数据。应以已发表论文的数据为准。
实验室外的应用价值
传统的活动识别模型需要为想要检测的每项活动提供标记训练数据。零样本方法通过学习可跨活动转移的通用模式来绕过这一瓶颈,这扩大了可穿戴设备可以解释的行为和健康状态范围,无需人工整理。
SensorLM的任何临床应用,例如标记心房颤动模式或预测代谢变化,都需要在部署前经过监管审查。该模型目前仍处于研究领域,尚未用于临床。
【全文结束】

