科学家们开发了一种名为CANYA的人工智能系统,该系统能够预测蛋白质是否会形成粘性团块,并解释其原因。这一过程与包括阿尔茨海默病在内的50多种影响近5亿人的疾病相关。与传统的“黑箱”人工智能系统不同,这种工具专门设计来解释其预测结果。它突出了促进或抑制有害蛋白质聚集的精确化学模式。
这项突破详细发表在《科学进展》杂志上,得益于迄今为止最大的蛋白质聚集数据集。该研究揭示了蛋白质团聚背后的分子机制,这是一个影响全球超过5亿人的疾病过程。
蛋白质聚集,也称为淀粉样蛋白形成,会干扰正常的细胞功能。当蛋白质的某些区域变得具有黏附性时,会导致分子结合成密集的纤维结构,这些结构通常对细胞有毒。
医学和生物技术的影响
虽然这项研究对加速神经退行性疾病的研究有一些影响,但其更直接的影响将是在生物技术领域。许多药物都是蛋白质,它们经常因不必要的团聚而受到阻碍。
“蛋白质聚集是制药公司的一大头痛,”该研究的共同通讯作者、加泰罗尼亚生物工程研究所(IBEC)的组长贝内德塔·博洛格内西博士说。
“如果一种治疗性蛋白质开始聚集,生产批次可能会失败,这会耗费时间和金钱。CANYA可以帮助指导抗体和酶的工程化,使它们不太可能粘在一起,从而减少昂贵的挫折,”她补充道。
解码蛋白质语言
蛋白质团块是通过一种不为人知的语言形成的。蛋白质由二十种不同的氨基酸组成。与其使用DNA语言中的A、C、G、T字母,蛋白质的语言有二十个不同的字母,不同的组合形成了“单词”或“基序”。
研究人员长期以来一直在试图破译哪些基序组合导致团聚,哪些其他组合使蛋白质能够无误地折叠。将氨基酸视为神秘语言字母的人工智能工具可以帮助识别负责的精确单词或基序,但关于蛋白质聚集的数据的质量和数量历来很少,或者仅限于非常小的蛋白质片段。
为了解决这一挑战,该研究进行了大规模实验。研究作者从头创建了超过10万个完全随机的蛋白质片段,每个片段长20个氨基酸。每个合成片段在活酵母细胞中进行聚集能力测试。如果某个特定片段触发了团聚,酵母细胞将以某种方式生长,研究人员可以测量以确定因果关系。
大约每五个蛋白质片段中有一个(21,936/100,000)会引起团聚,而其余的则不会。虽然以前的研究可能只追踪了少数序列,但新的数据集捕获了更多可能导致淀粉样蛋白聚集的不同蛋白质变体。
探索一个巨大的新蛋白质宇宙
“我们创造了真正随机的蛋白质片段,包括许多自然界中不存在的版本。进化只探索了所有可能蛋白质序列的一小部分,而我们的方法帮助我们窥视了一个更大的可能性星系,提供了大量数据点来帮助理解更一般的聚集行为规律,”基因组调控中心(CRG)的博士后研究员迈克·汤普森博士解释道。
从实验中生成的大量数据被用来训练CANYA。研究人员决定使用“可解释人工智能”的原则来创建它,使其决策过程对人类透明且易于理解。这意味着牺牲了一点预测能力,而这通常是“黑箱”人工智能更高的。尽管如此,CANYA的准确性比现有模型高出约15%。
具体来说,CANYA是一种卷积-注意力模型,这是一种结合了两种不同人工智能领域的混合工具。卷积模型,如图像识别中使用的模型,扫描照片以寻找特征,例如耳朵或鼻子来识别面孔,而在这种情况下,CANYA扫描蛋白质链以找到有意义的特征,如基序或“单词”。
注意力人工智能模型用于语言翻译工具,以识别句子中的关键短语,然后决定最佳翻译。研究人员将这种方法纳入CANYA,以帮助它找出在整个蛋白质中最重要的基序。
这两种方法结合起来帮助CANYA近距离看到局部基序,同时也能发现它们在更大范围内的重要性。研究人员可以利用这些信息不仅预测蛋白质链中哪些基序促进团聚、阻止团聚或介于两者之间,还能理解为什么。
例如,CANYA显示,一小部分疏水氨基酸更容易引发团聚,而某些基序如果位于蛋白质序列的开始而不是末尾,则对团聚有更大的影响。这些观察结果与研究人员在已知淀粉样纤维中所见的显微镜下发现相符。
新见解和未来方向
但CANYA也发现了新的规则,推动蛋白质聚集。例如,某些蛋白质的构建块,即所谓的带电氨基酸,通常被认为可以防止团聚。但事实证明,在与其他特定构建块的背景下,它们实际上可以促进团聚。
目前,CANYA主要以是或否的方式解释蛋白质聚集,即作为所谓的“分类器”。研究人员下一步希望改进系统,使其能够预测并比较聚集速度,而不仅仅是聚集的可能性。这可以帮助预测哪些蛋白质变异快速形成团块,哪些较慢形成团块,在神经退行性疾病中,淀粉样蛋白形成的时机与发生本身一样重要。
“有10^24五千万种方法可以创建一个20个氨基酸长的蛋白质片段。到目前为止,我们已经用10万个片段训练了一个人工智能。我们想通过制造更多的片段和更大的片段来改进它。这只是第一步,但我们的工作表明,有可能破译蛋白质聚集的语言。这对于理解人类疾病非常重要,也有助于指导合成生物学的努力,”博洛格内西博士总结道。
“这个项目是一个很好的例子,说明大规模数据生成与人工智能相结合如何加速研究。这也是一种非常具有成本效益的方法来生成数据,”ICREA研究教授、基因组调控中心(CRG)和韦尔科姆桑格研究所的小组负责人本·莱纳说。
“利用DNA合成和测序,我们可以在一个试管中进行数十万次实验,生成训练人工智能模型所需的数据。我们将这种方法应用于生物学中的许多难题。目标是使生物学变得可预测和可编程,”他补充道。
(全文结束)

