Credit: Unsplash/CC0 公共领域
睡眠质量差不仅会导致次日精神不振,还可能预示多年后将发作的疾病。斯坦福医学院研究人员及其合作者开发的新型人工智能模型,仅需一晚睡眠的生理监测数据,即可预测个体罹患100多种健康问题的风险。
该模型命名为SleepFM,基于65,000名参与者提供的近60万小时睡眠数据训练而成。数据来源于多导睡眠图——一种通过多种传感器记录脑电活动、心脏功能、呼吸信号、腿部运动及眼球运动等的综合睡眠评估技术。多导睡眠图作为睡眠研究的金标准,通常在实验室对患者进行整夜监测。研究人员意识到,这些数据实为未被充分挖掘的生理信息宝库。
"睡眠研究中我们采集了大量信号,"研究共同资深作者、斯坦福医学院睡眠医学教授埃马纽埃尔·米尼奥特医学博士指出,"这相当于对完全受控的受试者进行八小时的全身生理监测,数据极其丰富。"当前睡眠研究仅利用其中小部分数据,而人工智能的进步使深度解析成为可能。本研究首次利用AI分析如此规模的睡眠数据。
"从AI角度看,睡眠领域相对未被充分研究,"研究共同资深作者、生物医学数据科学副教授詹姆斯·邹博士表示,"尽管睡眠是生命重要组成部分,但相比病理学或心脏病学,针对睡眠的AI研究相当有限。"
解码睡眠语言
为充分利用睡眠数据宝库,研究团队构建了基础模型——一种能自我训练于海量数据并应用于多种任务的AI模型。SleepFM的训练数据来自多家睡眠诊所患者的多导睡眠图,将58.5万小时睡眠数据分割为五秒片段,类似于大语言模型的"单词"单位。
"SleepFM本质上是在学习睡眠的语言,"邹博士解释道。该模型成功整合脑电图、心电图、肌电图、脉搏及呼吸气流等多源数据,解析其相互关联。研究团队创新开发"留一法对比学习"技术:隐藏某类数据模态,要求模型通过其他信号重建缺失部分。
"本研究的技术突破在于协调不同数据模态,使它们能共同学习同一种'语言',"邹博士强调。
疾病预测能力
训练完成后,研究团队对模型进行任务微调。在睡眠分析标准任务(如睡眠阶段分类、睡眠呼吸暂停严重程度诊断)中,SleepFM表现达到或超越现有尖端模型。
更突破性的是利用睡眠数据预测未来疾病。研究团队将睡眠数据与受试者长期健康记录匹配,得益于斯坦福睡眠医学中心自1970年建立的超半个世纪健康档案。用于训练的核心队列包含35,000名2至96岁患者(1999-2024年接受多导睡眠监测),其电子健康记录提供最长25年随访数据。
SleepFM分析健康记录中1000余种疾病类别,发现130种可通过睡眠数据合理预测的疾病。模型对癌症、妊娠并发症、循环系统疾病及精神障碍预测效果尤为突出,一致性指数(C-index)超过0.8。C-index是衡量预测性能的常用指标,0.8意味着模型对任意两人发病时序的判断80%与实际相符。
SleepFM在预测帕金森病(C指数0.89)、痴呆症(0.85)、高血压性心脏病(0.84)、心肌梗死(0.81)、前列腺癌(0.89)、乳腺癌(0.87)及死亡风险(0.84)方面表现卓越。"我们惊喜地发现,该模型对广泛疾病类别均能提供有价值预测,"邹博士表示。临床中C指数约0.7的模型(如预测癌症治疗反应)已被证实具有实用价值。
模型解析
研究团队正通过整合可穿戴设备数据等方式提升SleepFM预测能力,并探索模型决策机制。"模型不会用英语解释其判断,"邹博士指出,"但我们开发了多种解析技术来识别疾病预测时的关键关注点。"
研究强调,尽管心脏信号在心脏病预测中权重更高、脑信号在精神健康预测中更显著,但多模态数据的综合分析才能实现最高预测精度。"预测疾病的关键信息来自不同信号通道的对比,"米尼奥特博士解释道,"例如大脑呈现睡眠状态而心脏却显示清醒状态的生理不同步现象,往往预示健康风险。"
哥本哈根技术大学生物医学数据科学博士生拉胡尔·塔帕和马格努斯·鲁德·克亚尔担任研究共同第一作者。丹麦技术大学、哥本哈根大学医院、BioSerenity公司、哥本哈根大学及哈佛医学院研究人员共同参与此项工作。
更多研究详情参见:
A multimodal sleep foundation model for disease prediction, Nature Medicine (2026). DOI: 10.1038/s41591-025-04133-4
【全文结束】

