本文介绍了一种结合视觉图神经网络(ViG)和监督对比学习的新方法,用于通过语音信号检测帕金森病(PD)。该方法旨在解决现有方法的三个关键局限性:首先,传统的卷积神经网络(CNN)将频谱图视为常规图像处理,无法捕捉频率带和时间段之间复杂的关联依赖性,而这些依赖性对于检测帕金森病特有的细微语音特征至关重要。其次,频谱时间数据中的空间关系本质上是图状的,其中频率区间和时间帧表现出长程依赖性,标准卷积操作无法有效建模。第三,采用基于视觉的模型进行语音分析代表了一种范式转变,将音频信号视为频谱图像,从而应用先进的计算机视觉技术来捕捉表现为跨不同频率带复杂频谱时间关系的构音障碍语音模式,这些模式更适合通过图结构而非传统的网格表示来建模。
研究的核心问题在于探讨视觉图神经网络与监督对比学习相结合是否能够有效建模语音信号中的复杂频谱时间关系,从而在帕金森病检测方面超越传统的基于CNN的方法。具体而言,研究调查了显式地将频谱图建模为图而非常规图像是否能更好地捕捉构音障碍语音的微妙分布模式。为了验证这一假设,研究采用了多机构数据集整合策略,确保在录音环境、设备规格、人口分布和临床协议方面的多样性,同时保持语音任务的一致性。研究特别强调了意大利语、西班牙语和哥伦比亚西班牙语等罗曼语系语言之间的语音兼容性,因为它们共享相似的元音系统和与帕金森病检测相关的语音特征。
在实验设计中,研究团队通过标准化预处理程序解决了录音异质性问题,并详细说明了数据增强技术的科学依据。例如,音调变换和时间拉伸等增强手段被证明与帕金森病引起的语音变化一致,而非仅仅用于正则化模型。此外,研究还采用了t-SNE可视化和混淆矩阵分析,揭示了模型在分类性能上的优势以及错误趋势的分析。
研究结果表明,所提出的框架在准确性、AUC等性能指标上表现优异,展示了其在现实世界中帕金森病检测的潜力。然而,研究也承认了其局限性,例如仅限于持续元音发音的数据集,未来工作计划扩展到更自然的语音任务(如阅读段落、图片描述和自发独白),以提高生态效度和全面性。
总之,这项研究不仅为帕金森病检测提供了一种新颖且高效的方法,还为未来的语音分析和神经疾病诊断开辟了新的方向。
(全文结束)

