使用一种新的人工智能方法,哥伦比亚大学瓦格洛斯内外科医学院(Columbia University Vagelos College of Physicians and Surgeons)的研究人员可以准确预测人体任何细胞内基因的活动,从而揭示细胞的内部机制。该系统描述于《自然》杂志,可能彻底改变科学家对从癌症到遗传疾病等一切领域的理解方式。
“可预测的通用计算模型可以快速而准确地揭示生物学过程。这些方法可以有效地进行大规模计算实验,推动和指导传统实验方法。”系统生物学教授兼新论文的资深作者拉乌尔·拉巴丹(Raul Rabadan)表示。
传统的生物学研究方法擅长揭示细胞如何执行其功能或对干扰作出反应,但无法预测细胞的工作方式或细胞对变化(如致癌突变)的反应。“能够准确预测细胞活动的能力将彻底改变我们对基本生物学过程的理解。”拉巴丹说,“它将使生物学从描述看似随机过程的科学转变为可以预测控制细胞行为系统的科学。”
近年来,随着来自细胞的大量数据积累和更强大的AI模型的发展,生物学正逐渐转变为一门更具预测性的科学。2024年的诺贝尔化学奖授予了研究人员,表彰他们在利用AI预测蛋白质结构方面的开创性工作。然而,使用AI方法来预测细胞内基因和蛋白质的活动已被证明更加困难。
新AI方法预测任何细胞中的基因表达
在这项新研究中,拉巴丹和他的同事尝试使用AI来预测特定细胞中哪些基因处于活跃状态。关于基因表达的信息可以告诉研究人员细胞的身份及其功能。
“以前的模型是在特定细胞类型的数据上训练的,通常是癌细胞系或其他与正常细胞差异很大的细胞。”拉巴丹说。他的实验室的研究生傅曦决定采用不同的方法,用来自正常人类组织的数百万个细胞的基因表达数据训练机器学习模型。输入包括基因组序列和显示基因组哪些部分可访问和表达的数据。
这种方法类似于ChatGPT和其他流行的“基础”模型的工作方式。这些系统使用一组训练数据来识别底层规则,即语言的语法,然后将这些推断出的规则应用于新情况。“这里也是一样的:我们在许多不同的细胞状态下学习语法,然后进入特定条件——它可以是病变细胞类型,也可以是正常细胞类型——我们可以尝试查看我们从这些信息中预测模式的效果如何。”拉巴丹说。
傅曦和拉巴丹很快召集了一个由合作者组成的团队,包括共同第一作者亚历杭德罗·布恩迪亚(Alejandro Buendia,现为斯坦福大学博士生,曾是拉巴丹实验室成员)和卡内基梅隆大学的莫沈通(Shentong Mo),来训练和测试新模型。
经过对超过130万个细胞的数据训练后,该系统变得足够准确,可以预测从未见过的细胞类型的基因表达,结果与实验数据高度一致。
新AI方法揭示儿童癌症的驱动因素
接下来,研究人员展示了他们的AI系统在揭示病变细胞尚未解开的生物学特性方面的强大能力,特别是针对一种遗传性的儿童白血病。
“这些孩子继承了一个突变的基因,但不清楚这些突变具体做了什么。”拉巴丹说,他也是哥伦比亚大学赫伯特·欧文综合癌症中心癌症基因组学和表观基因组学研究项目的联合主任。
通过AI,研究人员预测突变破坏了两种不同转录因子之间的相互作用,这些转录因子决定了白血病细胞的命运。实验室实验证实了AI的预测。了解这些突变的影响揭示了驱动这种疾病的具体机制。
AI可揭示基因组的“暗物质”
新的计算方法还应使研究人员开始探索基因组“暗物质”的作用——这一术语借用了宇宙学的概念,指的是基因组中不编码已知基因的大部分区域,在癌症和其他疾病中的作用。
“在癌症患者中发现的大多数突变都位于所谓的基因组暗区。这些突变不影响蛋白质的功能,基本上未被探索过。”拉巴丹说。“我们的想法是,使用这些模型,我们可以研究突变并照亮这部分基因组。”
拉巴丹正在与哥伦比亚大学及其他大学的研究人员合作,探索不同类型癌症,从脑癌到血液癌症,学习正常细胞的调控语法,以及细胞在癌症发展过程中的变化。
这项工作也为理解许多其他疾病开辟了新的途径,并有可能确定新治疗的靶点。通过向计算机模型呈现新突变,研究人员现在可以获得关于这些突变如何影响细胞的深刻见解和预测。
继其他最近在生物学中使用AI的进展之后,拉巴丹认为这项工作是生物学的一个重大趋势:“这真的是一个极其令人兴奋的新时代;将生物学转变为预测性科学。”
(全文结束)

