多模态机器学习揭示神经退行性疾病发病的上下文依赖性遗传修饰因子
巴塞罗那大学医学与健康科学学院及神经科学研究所(UBneuro)研究团队应用先进人工智能技术,深入探究为何亨廷顿病患者发病年龄存在显著差异。这种遗传性神经退行性疾病由HTT基因突变引发,导致运动、认知及精神功能障碍。该基因编码亨廷顿蛋白,其突变产生的CAG重复序列会改变该蛋白在大脑中的特性与功能。
尽管HTT基因中CAG重复序列长度影响首发症状出现时间,但此单一因素无法完全解释患者间巨大的发病年龄差异。本研究首次系统分析哪些附加遗传因素在决定患者发病时间中起关键作用。
该论文已发表于第20届计算生物学机器学习国际会议(MLCB, 2025)会议论文集,该会议是探索机器学习与计算生物学前沿知识的国际顶级学术论坛。研究由巴塞罗那大学拉蒙·卡哈尔研究员霍尔迪·阿班特(Jordi Abante)领衔,硕士生卡特里娜·富塞斯(Caterina Fuses)担任第一作者。
"此方法可拓展应用于其他遗传性神经退行性疾病,有望为研究开辟新方向,并在未来推动更个性化的治疗策略"
霍尔迪·阿班特
本研究开创性地将人工智能语言模型应用于基因组信息,实现多模态基因型-表型预测。研究构建了探究复杂遗传疾病的新框架,证实多模态机器学习能有效识别常规方法难以察觉的生物学显著模式。
研究团队采用非线性机器学习模型(如基于树的模型和图神经网络)识别遗传修饰因子——即能根据患者基因背景延缓或加速疾病进程的基因。相较于传统统计方法,这些模型可检测基因间复杂互作,并揭示依赖CAG三核苷酸扩展长度的效应。
为提升分析效率与可解释性,团队开发了基于基因特异性神经网络的遗传信息压缩方法,在保持预测能力的同时降低计算成本。此外,研究整合了由尖端基因组语言模型预测生成的基因表达变化数据,成功将调控DNA变异与疾病影响脑区的基因活性变化相关联。
团队分析了9,000多名亨廷顿病患者的遗传数据,不仅确认了既往已知的DNA修复相关修饰因子,还新发现参与转录调控和细胞代谢的候选基因。研究首次证明:CAG扩展长度较短与较长的患者,其发病受不同生物学机制影响,揭示了遗传效应的上下文依赖性本质。
"本研究表明,修饰亨廷顿病的遗传因素并非普适性存在,而高度依赖基因背景。借助非线性多模态机器学习,我们能发现传统方法完全无法识别的基因互作。"该研究首席科学家、巴塞罗那大学医学与健康科学学院教授兼UBneuro成员霍尔迪·阿班特强调。
"此方法可拓展应用于其他遗传性神经退行性疾病,有望为研究开辟新方向,并在未来推动更个性化的治疗策略,"阿班特总结道。
来源: 巴塞罗那大学
2026年1月24日
【全文结束】

