波恩大学的研究人员训练了一种AI流程来预测具有特殊性质的潜在活性成分。为此,他们开发了一种化学语言模型——一种分子的ChatGPT。经过训练阶段后,该AI能够精确重现具有已知双重靶点活性的化合物化学结构,这些化合物可能是特别有效的药物。该研究现已发表在《细胞报告:物理科学》上。
两种靶点蛋白质的三维结构——组蛋白去乙酰化酶6(蓝色)和酪氨酸蛋白激酶JAK2(红色),以及每种酶的选择性抑制剂。中心的双效抑制剂对两个靶点都有效。预测具有预定义双重靶点活性的化合物是化学语言模型的任务。
如今,如果有人想在90岁生日时用一首诗取悦奶奶,不必成为诗人:只需在ChatGPT中输入简短提示,几秒钟内AI就会吐出一长串与寿星名字押韵的单词。如果你喜欢,它甚至可以为你创作一首十四行诗。
波恩大学的研究人员在他们的研究中实现了类似的模型——被称为化学语言模型。然而,这种模型不产生押韵诗句。相反,AI显示可能具有特别理想特性的化学化合物的结构式:它们能够与两个不同的靶点蛋白质结合。在生物体内,这意味着例如它们可以同时抑制两种酶。
寻找:具有双重效果的活性成分
"在药物研究中,由于多药理学特性,这类活性化合物非常理想,"拉马尔机器学习与人工智能研究所的计算化学专家于尔根·巴约拉特(Jürgen Bajorath)博士教授解释道。他同时负责波恩大学b-it(波恩-亚琛国际信息技术中心)的生命科学信息学项目。"因为具有理想多靶点活性的化合物同时影响多个细胞内过程和信号通路,它们通常特别有效——例如在对抗癌症方面。"原则上,这种效果也可以通过不同药物的联合给药来实现。然而,存在不希望的药物相互作用的风险,并且不同化合物在体内通常以不同速率分解,使得它们难以一起给药。
找到一种专门影响单一靶点蛋白质效果的分子并非易事。设计具有预定义双重效果的化合物更为复杂。化学语言模型可能在未来提供帮助。ChatGPT使用数十亿页书面文本进行训练,并学会自己构句。化学语言模型工作方式类似,但可用于学习的数据量相对较少。然而,原则上它们也接受文本输入,例如称为SMILES字符串的文本,这些字符串将有机分子及其结构显示为字母和符号的序列。"我们现在用字符串对训练了我们的化学语言模型,"巴约拉特研究小组的桑贾娜·斯里尼瓦桑(Sanjana Srinivasan)表示。"其中一个字符串描述了我们已知仅作用于一种靶点蛋白质的分子。另一个代表一种化合物,除了这种蛋白质外,还影响第二种靶点蛋白质。"
AI学习化学关联
该模型接受了超过70,000对这样的数据。这使其获得了正常活性化合物与具有双重效果的化合物之间差异的隐性知识。"然后当我们输入一种针对靶点蛋白质的化合物时,它会基于此建议分子,这些分子不仅对该蛋白质起作用,还对另一种蛋白质起作用,"巴约拉特解释道。
具有双重效果的训练化合物通常靶向相似的蛋白质,因此在体内执行类似功能。然而,在药物研究中,人们也在寻找影响完全不同类别的酶或受体的活性成分。为了使AI为这项任务做好准备,在一般学习阶段后进行了微调。研究人员使用了几 dozen特殊训练对来教导算法建议的化合物应该靶向哪些不同类别的蛋白质。这有点像指示ChatGPT这次不要创作十四行诗,而是创作一首五行打油诗。
微调后,该模型实际上吐出了已被证明对所需靶点蛋白质组合起作用的分子。"这表明该过程有效,"巴约拉特说。然而,在他看来,这种方法的优势不在于能够立即找到效果超过现有药物的新化合物。"从我的观点来看,更有趣的是AI经常建议大多数化学家甚至不会立即想到的化学结构,"他解释道。"在某种程度上,它触发了'跳出框框'的想法,并提出了可能导致新设计假设和方法的原创解决方案。"
原始出版物
桑贾娜·斯里尼瓦桑(Sanjana Srinivasan),于尔根·巴约拉特(Jürgen Bajorath);"使用基于Transformer的化学语言模型生成双重靶点化合物";《细胞报告:物理科学》
【全文结束】

