利用语音基础模型进行咳嗽声音分析实现高负担环境下结核病的AI筛查 - AI与医疗健康

利用语音基础模型进行咳嗽声音分析实现高负担环境下结核病的AI筛查AI-enabled tuberculosis screening in a high-burden setting using cough sound analysis and speech foundation models

环球医讯 / AI与医疗健康来源：arxiv.org赞比亚 - 英语2025-09-16 18:58:49 - 阅读时长5分钟 - 2007字

本研究基于500名参与者的咳嗽录音数据开发深度学习模型，结合语音基础模型与人口统计及临床数据，在区分结核病与非结核病例中达到92.1%的曲线下面积（AUROC）、90.3%灵敏度和83.1%特异性。模型通过对抗性测试验证声学特征特异性，支持其作为结核病分诊工具的应用潜力，需进一步跨区域验证以推动临床转化。

利用语音基础模型进行咳嗽声音分析实现高负担环境下的结核病AI筛查

摘要

背景

人工智能系统可检测咳嗽声音中与疾病相关的声学模式，为结核病（TB）筛查提供可扩展且具成本效益的解决方案，尤其适用于资源匮乏的高负担地区。然而既往研究受限于小规模数据集、症状性非结核患者样本不足、依赖简单机器学习模型以及理想化录音条件。

方法

在赞比亚两家医院招募512名参与者并分为三组：细菌学确诊TB（TB+）、症状性非TB呼吸道疾病（OR）和健康对照（HC）。最终获得500名参与者的可用咳嗽录音、人口统计和临床数据。基于语音基础模型的深度学习分类器经咳嗽录音训练后，预测诊断类别。表现最佳的3秒咳嗽片段分类器进一步结合人口统计及临床数据进行评估。

结果

纯音频分类器区分TB+与所有其他病例（TB+/Rest）的曲线下面积（AUROC）达85.2%，区分TB+与症状性OR病例（TB+/OR）的AUROC为80.1%。结合人口统计和临床特征后，TB+/Rest的AUROC提升至92.1%，TB+/OR达84.2%。在概率阈值0.38时，多模态模型对TB+/Rest的灵敏度90.3%、特异性73.1%，对TB+/OR的灵敏度80.6%、特异性73.1%。

解释

结合人口统计和临床数据的咳嗽声音分析模型表现优异，达到WHO结核分诊工具性能标准。对抗性测试和分层分析显示，该模型对背景噪音、录音时间和设备差异具有鲁棒性，表明其捕捉的是疾病相关声学特征而非人工干扰。需在不同地区和病例定义（包括亚临床TB）中进一步验证后方可临床部署。

引言

结核病仍是全球最严峻的健康挑战之一，2023年报告新发病例1060万例，死亡130万例。尽管可预防和治愈，但约25%的估计病例未被诊断和治疗。系统筛查对缩小病例检测缺口至关重要。然而当前WHO批准的筛查工具存在局限性：症状筛查灵敏度（71%）和特异性（64%）有限，胸片（CXR）需昂贵基础设施，CRP检测对HIV共感染人群更具诊断价值，分子快速诊断（mWRD）灵敏度仅69%且需复杂样本运输网络。