蛋白质工程是一个适合人工智能研究的领域。每种蛋白质都由氨基酸组成;为优化蛋白质功能,研究人员通过将20种不同氨基酸中的一个替换为另一个来修改蛋白质。对于一个仅有50个氨基酸长度的蛋白质,这会导致约1.13×10^65种可能的组合需要测试——即113后面跟着65个零,是万亿后面零的数量的五倍。
这种数量级的潜在组合在实验室中无法全部测试,使得蛋白质工程成为人工智能的理想挑战。建模哪些组合能产生最佳结果正是这项技术强大计算能力的完美应用。但人工智能的效果取决于用于训练的数据,在某些蛋白质工程领域,合适的训练数据根本不存在。
"在人工智能指导的蛋白质工程中,最大的瓶颈不是设计机器学习模型,而是生成正确且足够的实验数据来训练这些模型,"莱斯大学化学、生物科学和生物工程教授、SynthX中心负责人韩霄(Han Xiao)表示,"对于优化蛋白质功能(即蛋白质的作用)的工程,我们面临一个明确的问题:根本没有足够的数据集来训练准确的模型。"
为了生成能够准确预测如何优化蛋白质功能或活性的AI模型,韩霄的团队首先需要为任何给定蛋白质生成足够的活性数据来训练AI模型。在最近发表在《自然·生物技术》(Nature Biotechnology)上的一篇论文中,韩霄团队与约翰斯·霍普金斯大学和微软的研究人员合作,分享了一种方法,该方法提供了所需数据,并在短短三天内创建了准确模型。
这种名为"序列展示"(Sequence Display)的方法可以在单次实验中生成超过1000万个数据点。这些数据点随后被输入蛋白质语言AI模型,模型利用这些数据预测对蛋白质氨基酸的哪些修改将产生所需的蛋白质活性或功能变化。
"我们成功开发了一种基于活性的条形码系统,可以记录单个蛋白质变体的活性,并生成训练机器学习模型所需的数据集,"该研究的第一作者、莱斯大学研究生程林奇(Linqi Cheng)表示,"然后该模型能够预测哪些突变可以显著提高我们研究的蛋白质的活性。"
研究团队选择了一种小型CRISPR-Cas蛋白作为概念验证。这种蛋白因其体积小而受到重视,但在靶向切割DNA片段的活性方面有限。研究人员希望找出一种能够切割更多种类DNA靶点的版本。
首先,他们对编码Cas9蛋白的DNA进行突变,创建了许多变体。每个变体都附有一个空白DNA条形码,以及一个会根据蛋白质活性水平改变条形码的特殊编辑器。随着蛋白质活性水平的提高,编辑器的活动也相应增加。这意味着最活跃的蛋白质变体在它们的条形码上有最大的变化。然后通过新一代测序读取DNA条形码,这实质上会扫描条形码并按活性水平对每个序列进行分类。
"在这里,人工智能不是取代实验,而是依赖于实验,"程林奇表示,"序列展示为我们提供了数据基础,而模型帮助我们在更大的数据空间中寻找强有力的候选者。"
该团队成功地将这一过程重复应用于其他蛋白质,包括氨基酰-tRNA合成酶、胞嘧啶脱氨酶和尿嘧啶糖基化酶抑制剂。在每种情况下,条形码实验都生成了足够多的数据点来训练AI模型。
"这种方法提供了一个将AI与蛋白质工程整合的实用框架,"同时也是癌症预防和研究所学者的韩霄表示,"我们不是将机器学习作为独立解决方案依赖,而是将其与生成高质量训练数据的实验平台相结合。这种协同作用使得更高效地发现先进研究工具和下一代治疗性蛋白质成为可能。"
这项工作得到了SynthX种子奖(SYN-IN-2024-002)、美国国立卫生研究院(R35-GM133706、R01-CA277838、R01-AI165079授予H.X.)、罗伯特·A·韦尔奇基金会(C-1970授予H.X.)、美国国防部(W81XWH-21-1-0789、HT9425-23-1-0494、HT9425-25-1-0021授予H.X.)、2024年莱斯合成生物学研究所种子基金(H.X.)以及罗伯特·J·克莱伯格和海伦·C·克莱伯格基金会医学研究奖的支持。
【全文结束】

