一项发表在《细胞》杂志上的研究首次报道了生成式AI设计的合成分子成功地在健康哺乳动物细胞中控制基因表达。
基因组调控中心(CRG)的研究人员创建了一个AI工具,可以设计出自然界中从未见过的DNA调控序列。该模型可以根据自定义标准来创造合成的DNA片段,例如,“在将要变成红血球的干细胞中激活这个基因,但在血小板中不激活”。
该模型可以预测需要哪些DNA字母(核苷酸碱基:A、T、C、G)组合才能在特定类型的细胞中实现所需的基因表达模式。研究人员随后可以化学合成大约250个字母的DNA片段,并将其添加到病毒中以递送到细胞中。
作为概念验证,研究作者要求AI设计合成片段,这些片段可以在某些细胞中激活编码荧光蛋白的基因,同时保持其他基因表达模式不变。他们从头开始创建这些片段,并将其插入小鼠血液细胞中,序列随机融合到基因组的不同位置。实验结果完全符合预期。
“潜在的应用非常广泛。这就像为生物学编写软件,给我们提供了新的方式来给细胞下达指令,并以前所未有的精度指导它们的发展和行为。”该研究的第一作者罗伯特·弗勒梅尔博士说,他在巴塞罗那的基因组调控中心(CRG)进行了这项工作。
这项研究可能会为基因治疗开发者提供新的方法,以仅在需要调整的细胞或组织中增强或减弱基因活性。它还为微调患者的基因、提高治疗效果并减少副作用开辟了新途径。
这项工作标志着生成生物学领域的一个重要里程碑。迄今为止,该领域的进展主要受益于蛋白质设计,帮助科学家比以往更快地创造出全新的酶和抗体。然而,许多人类疾病源于特定细胞类型的基因表达故障,对于这些情况,可能永远不会有完美的蛋白质药物候选者。
基因表达由调节元件如增强子控制,这些增强子是微小的DNA片段,可以开启或关闭基因。为了修复有缺陷的基因表达,研究人员可以在基因组中寻找自然存在的增强子,但这种方法限制了他们只能使用进化过程中产生的序列。
AI生成的增强子可以帮助设计出自然界尚未发明的超选择性开关。它们可以被设计成在特定类型的细胞中具有精确的开启/关闭模式,这种精细调节对于创造避免对健康细胞产生意外影响的疗法至关重要。
然而,开发AI模型需要大量高质量的数据,而这些数据在增强子方面历来缺乏。“要为生物学创建一个语言模型,你必须理解细胞的语言。我们着手破译这些增强子的语法规则,以便我们可以创造全新的单词和句子。”该研究的通讯作者拉尔斯·维尔滕博士解释道,他是基因组调控中心(CRG)的研究员。
研究作者通过进行数千次血液形成实验室模型的实验来构建他们的AI模型,从而创建了大量生物数据。他们研究了增强子和转录因子,后者也是控制基因表达的蛋白质。
直到现在,研究增强子和转录因子的科学家通常使用癌细胞系,因为它们更容易处理。研究人员使用健康细胞进行研究,因为这更能代表人类生物学。他们的工作揭示了塑造免疫系统和血细胞生成的微妙机制。
五年多的时间里,团队合成了超过64,000个合成增强子,每个增强子都经过精心设计,以测试38种不同转录因子的不同排列和结合强度。这是迄今为止在血细胞中建立的最大规模的合成增强子库。
一旦插入细胞中,团队会跟踪每个合成增强子在七个阶段的血细胞发育过程中变得多么活跃。他们发现,虽然许多增强子在一个类型的细胞中激活基因,但在另一个类型的细胞中却抑制基因。
大多数增强子像音量旋钮一样,上调或下调基因活性。令人惊讶的是,某些组合起到了开/关开关的作用。科学家称这种现象为“负协同作用”,意味着两个单独可以激活基因的因素在一起时实际上可以关闭该基因。
实验数据对于设定机器学习模型的设计原则至关重要。一旦模型有足够的测量数据,表明每个合成增强子如何改变实际细胞中的基因活性,它就可以预测新的设计,即使这些增强子在自然界中从未存在过。
这项研究旨在确定技术在大规模研究之前是否可行。研究人员只是触及了表面。人类和小鼠估计有1,600个转录因子调控其基因组。
这项工作由拉尔斯·维尔滕、罗伯特·弗勒梅尔、朱莉娅·鲁勒、艾娜·贝尔纳尔·马丁内斯、切尔西·苏图和费利克斯·帕切科·帕斯特完成,他们都是拉尔斯·维尔滕在基因组调控中心的研究小组成员。
巴塞罗那协作组的罗莎·马丁内斯·科尔拉也参与了这项工作,这是一个由CRG和EMBL-巴塞罗那联合发起的项目。
(全文结束)

