特拉华大学痴呆症银行数据库超越全球竞争者,推动早期痴呆症预测的机器学习进展
我们的说话方式——从细微的口吃到重复的词语——能否揭示阿尔茨海默病的最早迹象?全球研究人员和数据科学家认为可以,而他们的探索最近为特拉华大学带来了重大胜利。
特拉华大学健康科学学院通信科学与障碍学(CSCD)助理教授阿莉莎·兰齐领导了扩大和多样化痴呆症银行(DementiaBank)的工作,这是一个用于研究痴呆症沟通的多媒体互动共享数据库。
她获得美国国家衰老研究所(NIA)370万美元资助的研究项目,最近在NIA举办的“阿尔茨海默病及相关痴呆症早期预测先锋研究尤里卡”(PREPARE)挑战赛中脱颖而出。该两年期挑战赛旨在通过三个递进阶段,开发针对阿尔茨海默病及相关痴呆症早期预测的创新且包容性方法。
挑战赛第一阶段“FindIT!”聚焦于识别或构建一个能解决阿尔茨海默病研究中偏见问题的代表性开放科学数据集。在数千个数据集中,兰齐的痴呆症银行数据库脱颖而出成为优胜者。
“若我们真想攻克早期检测并取得进展,就需要基于团队的协作方法——这远超任何大学单一研究实验室的规模,”兰齐表示,“看到来自全美、拥有谷歌和亚马逊等行业背景的数据科学家们汇聚一堂,利用我们在特拉华大学收集的数据构建分析方法,从而推动早期检测领域发展,这无比激励人心。”
组织该挑战赛的DrivenData公司评价痴呆症银行数据库令人印象深刻。
“我们一直在寻找这样的‘独角兽’数据集,”DrivenData高级数据科学家克里斯汀·钟说,“痴呆症银行是一个结构良好、易于获取且具有多元代表性的数据集。这是一个未被充分探索的领域,而机器学习和人工智能如今使我们能够从音频样本中提取更丰富的特征。”
第二阶段“BuildIT!”专注于推进早期检测和预测的先进、合乎伦理且包容的算法与分析方法。第三阶段“Put IT All Together!”则汇集顶尖团队展示其模型并推介解决方案。
痴呆症银行是唯一被选中用于声学分析的数据库,并在整个挑战赛中被广泛采用。
“以标准化方式招募参与者并收集数据是一项艰巨工作,”兰齐说,“我们仍在积极收集数据——远未完成,因此看到我们的工作影响超出论文发表范围,为领先科学方法铺平道路,这令人难以置信。”
自项目启动以来,CSCD博士项目四年级学生安娜·赛勒一直在兰齐的弹性认知老化实验室工作。目睹已故祖父母经历阿尔茨海默病的历程,这项工作对她而言意义深远。
阿莉莎·兰齐(左)与CSCD博士生安娜·赛勒在马里兰州美国国立卫生研究院总部出席PREPARE挑战赛获奖者展示会。
“我采集了第一个数据样本,”赛勒说,“想到所有为这项研究付出时间的老年人,以及这些两小时的会话现在能用于早期检测的复杂方法,这简直令人震撼。”
她的经历凸显了理解语音生物标志物的重要性。
“痴呆症银行分解了词汇随时间的变化并引入不流畅性,包括口吃、停顿和音调变化,”钟表示,“我希望这项研究能演变为一种产品,以经济实惠且人人可及的方式帮助提前20年检测阿尔茨海默病。”
当前检测工具如MRI既昂贵又具侵入性,兰齐认为语言虽非单一预测指标,但可能是关键拼图。
“我希望语言成为弥合差距的标志物,让患者尽早参与治疗。这可能改变疾病轨迹,或帮助他们在阿尔茨海默病进展中更好地管理功能,”兰齐说。
该挑战赛也为合作开辟了新途径。
“我有机会向这些创新者普及轻度认知障碍知识,并让他们一窥数据背后的人,使其人性化,”兰齐表示,“数据科学家必须明白,他们分析的语言背后是真实人类——某人的祖母。”
与数据科学家的交流也帮助兰齐优化了数据收集流程。
“我们常常在孤岛中运作,”兰齐说,“将所有人汇聚起来理解需求、学习如何优化流程并解释为何某些元素无法更改,这至关重要。”
挑战赛组织者表示,特拉华大学对开放科学的贡献正在确立国家标准。
“毫无疑问,特拉华大学是开放科学和早期检测努力的领导者,”钟说,“痴呆症银行是该领域的明确领导者——它拥有海量数据,我认为没有其他资源能与之媲美。”
这种产业与学术的跨界合作十分罕见;兰齐希望看到这种伙伴关系持续壮大。
“有朝一日,我期望我们的团队由临床医生、以患者为中心的研究人员和数据科学家组成,”她说,“当最顶尖的问题解决者汇聚一堂时,一切皆有可能。”
截至目前,弹性认知老化实验室(RECALL)已进行300次痴呆症银行数据库访问。通信科学与障碍学博士项目四年级学生安娜·赛勒(左)在该实验室工作。
【全文结束】

