了解人类生物学不仅需要绘制我们的基因图谱,还需要理解基因表达是如何被调控的,以指导健康的发育、生长和身体系统的终生维持。
劳伦斯伯克利国家实验室(Berkeley Lab)和斯坦福大学的科学家们揭示了调控序列(称为增强子)如何在胚胎发育过程中驱动基因表达的新见解。增强子是DNA的一部分,尽管它们位于实际编码序列的远处,但可以协调基因的表达。
他们的工作今天发表在《自然》杂志上,展示了增强子中的多个短模块化序列如何正确引导表达,并且即使是一个单核苷酸突变也会改变基因的激活方式和位置。该团队还利用其实验结果开发并评估了一个机器学习模型。
“这些发现表明,即使是微小的变化也会产生巨大的影响,”第一作者、伯克利实验室的博士后研究员Michael Kosicki说。“我们的方法将为科学家提供一个强大的工具,用于研究正常的基因调控,并解开非编码基因组变异与疾病之间日益紧密的联系。”
伯克利实验室的研究团队使用小鼠模型研究了七个已知控制大脑、心脏、四肢和面部发育的人类增强子。他们在这些增强子中创建了大量的不同突变,然后观察整个身体发育组织的变化。在一个显著的例子中,对与构建面部和四肢结构相关的增强子进行改变后,它在心脏和神经系统组织中被激活。
“看到单个碱基对突变就能改变增强子在体内的激活位置,并可能改变身体的发育方式,这对研究人类疾病和设计基因疗法具有深远的影响,”共同主要作者、伯克利实验室环境基因组学和系统生物学(EGSB)部门的高级科学家Len Pennacchio说。“这也意味着科学家在设计组织特异性基因疗法时需要谨慎,以避免意外效果。”
研究增强子一直具有挑战性,因为每个这些序列都包含多个转录因子结合位点,这些分子负责开启或关闭DNA转录。突变的影响取决于被改变的特定组合和位置,只能通过系统的实验来揭示。这种复杂性和缺乏足够的数据来训练机器学习算法,使得建立准确的预测模型变得困难。
利用伯克利实验室团队创建的大规模实验数据集,斯坦福大学的合作团队开发了一个新模型,并测试它是否能够识别实验中揭示的重要序列。
“我们想探索目前AI在理解增强子生物学方面的能力,”伯克利实验室的高级科学家Axel Visel说,他是该论文的共同通讯作者。
他们发现,虽然该模型可以通过搜索已知指示结合位点的序列模式来识别许多功能重要的增强子区域,但它错过了基于团队实验证据显然至关重要的其他序列。
“目前可用的模型讲的是真话,但不是全部的真话,”Kosicki说。“换句话说,我们的预测通常是正确的,但有时会错过实验中确定的功能区域。识别这些模型的盲点将有助于我们在未来改进它们。”
目前,这些发现既是一种资源也是一种提醒:即使是最优秀的预测模型也需要基于实验生物学。随着研究人员继续改进AI工具,像这样的研究对于揭示这些模型哪些地方正确以及哪些地方仍然不足至关重要。
(全文结束)

