位于马萨诸塞州剑桥市的麻省理工学院的研究表明,如果一个蛋白质出现在细胞的错误位置,可能会导致多种疾病,如阿尔茨海默病、囊性纤维化和癌症。然而,在单个人类细胞中大约有70,000种不同的蛋白质和蛋白质变体,科学家们通常一次只能测试少数几种蛋白质,因此手动识别蛋白质的位置非常耗时且成本高昂。
新一代的计算技术试图通过使用机器学习模型来简化这一过程,这些模型通常利用包含数千种蛋白质及其位置的数据集,这些数据集是在多个细胞系中测量得到的。其中一个最大的数据集是人类蛋白质图谱,它记录了超过40种细胞系中13,000多种蛋白质的亚细胞行为。尽管这个数据集已经非常庞大,但它只探索了数据库中所有可能的蛋白质和细胞系配对的约0.25%。
现在,来自麻省理工学院、哈佛大学和布罗德研究所的研究人员开发了一种新的计算方法,可以有效地探索剩余的未知领域。他们的方法可以预测任何蛋白质在任何人类细胞系中的位置,即使这种蛋白质和细胞以前从未被测试过。
他们的技术比许多基于人工智能的方法更进一步,可以在单细胞水平上定位蛋白质,而不仅仅是对特定类型的所有细胞进行平均估计。例如,这种单细胞定位可以确定治疗后特定癌细胞中蛋白质的位置。
研究人员结合了一个蛋白质语言模型和一种特殊的计算机视觉模型,以捕捉关于蛋白质和细胞的丰富细节。最终,用户会收到一张带有高亮部分的细胞图像,显示模型预测的蛋白质位置。由于蛋白质的定位指示其功能状态,这项技术可以帮助研究人员和临床医生更高效地诊断疾病或识别药物靶点,同时使生物学家更好地理解复杂的生物过程与蛋白质定位之间的关系。
“你可以通过计算机进行这些蛋白质定位实验,而无需接触实验室工作台,从而节省几个月的努力。虽然你仍然需要验证预测结果,但这项技术可以作为实验前的初步筛选。”麻省理工学院计算与系统生物学项目的研究生Yitong Tseo说。Tseo是该研究论文的共同第一作者之一。
PUPS方法分为两部分。第一部分使用蛋白质序列模型来捕捉蛋白质的定位决定特性及其基于氨基酸链形成的三维结构。第二部分则采用图像修复模型,该模型旨在填补图像中缺失的部分。这种计算机视觉模型查看三个染色细胞图像,以收集有关该细胞状态的信息,如细胞类型、个体特征以及是否处于应激状态。
PUPS将每个模型创建的表示结合起来,以预测蛋白质在单个细胞内的位置,并使用图像解码器输出一张高亮图像,显示预测的位置。
“同一细胞系中的不同细胞表现出不同的特征,我们的模型能够理解这种细微差别。”Tseo说。
用户输入形成蛋白质的氨基酸序列和三个细胞染色图像(一个用于细胞核,一个用于微管,一个用于内质网),然后PUPS完成其余的工作。
研究人员在训练过程中采用了一些技巧,以教会PUPS如何将每个模型的信息结合起来,使其能够在没有见过某种蛋白质的情况下对其位置做出有根据的猜测。例如,他们在训练过程中给模型分配了一个次要任务:显式命名定位隔室,如细胞核。这与主要的图像修复任务一起进行,以帮助模型更有效地学习。
此外,PUPS在同时训练蛋白质和细胞系时,能够更深入地理解蛋白质在细胞图像中倾向于定位的位置。
PUPS甚至可以独立理解蛋白质序列的不同部分如何分别贡献于其整体定位。
“大多数其他方法通常要求你首先有一个蛋白质的染色图像,所以在你的训练数据中已经见过它。我们的方法独特之处在于它可以同时推广到未见过的蛋白质和细胞系。”张欣怡说。张欣怡是电气工程与计算机科学系(EECS)及Eric和Wendy Schmidt中心的研究生,也是该论文的共同第一作者。
由于PUPS可以推广到未见过的蛋白质,它可以捕捉到由不在人类蛋白质图谱中的独特蛋白质突变驱动的定位变化。
研究人员通过实验室实验验证了PUPS可以预测未见过的细胞系中新蛋白质的亚细胞位置,并比较了结果。此外,与基线AI方法相比,PUPS在他们测试的蛋白质中平均预测误差较小。
未来,研究人员希望改进PUPS,使其能够理解蛋白质-蛋白质相互作用,并在细胞内对多个蛋白质进行定位预测。从长远来看,他们希望使PUPS能够在活的人体组织而非培养细胞中进行预测。
(全文结束)

