利用一种新的AI方法,哥伦比亚大学瓦格洛斯内外科医学院的研究人员能够准确预测任何人体细胞中基因的活动,揭示细胞内部机制。这项研究发表在最新一期的《自然》杂志上,可能会彻底改变科学家对癌症到遗传疾病等领域的理解方式。
预测通用计算模型可以快速而准确地揭示生物过程。这些方法能够有效进行大规模计算实验,增强和指导传统实验方法。”系统生物学教授兼该论文的资深作者Raul Rabadan表示。
传统的生物学研究方法擅长揭示细胞如何执行其功能或对干扰作出反应,但无法预测细胞的工作方式或细胞对变化(如致癌突变)的反应。“如果能够准确预测细胞的活动,将彻底改变我们对基本生物过程的理解,”Rabadan说,“这将使生物学从描述看似随机的过程转变为预测调控细胞行为的底层系统。”
近年来,随着大量细胞数据的积累和更强大的AI模型的出现,生物学正逐渐向更具预测性的科学转变。2024年的诺贝尔化学奖授予了使用AI预测蛋白质结构的研究人员。然而,利用AI方法预测细胞内基因和蛋白质的活动已被证明更为困难。
在新研究中,Rabadan和他的同事尝试使用AI来预测特定细胞中哪些基因处于活跃状态。这种关于基因表达的信息可以告诉研究人员细胞的身份及其功能。“以前的模型是在特定细胞类型的数据上训练的,通常是癌细胞系或其他与正常细胞差异较大的样本,”Rabadan说。他的实验室研究生Xi Fu决定采用不同的方法,用来自正常人体组织的数百万个细胞的基因表达数据训练机器学习模型。输入包括基因组序列以及显示基因组哪些部分可访问和表达的数据。
该方法类似于ChatGPT和其他流行的基础模型的工作方式。这些系统使用一组训练数据来识别底层规则,即语言的语法,然后将这些推断出的规则应用于新情况。“这里也是一样:我们在许多不同的细胞状态下学习‘语法’,然后进入特定条件——它可以是病变细胞也可以是正常细胞类型——并尝试查看我们能否从这些信息中准确预测模式,”Rabadan说。
Fu和Rabadan很快召集了一个合作团队,包括共同第一作者Alejandro Buendia(现为斯坦福大学博士生,曾在Rabadan实验室工作)和卡内基梅隆大学的Shentong Mo,以训练和测试新模型。在超过130万个细胞的数据训练后,该系统变得足够准确,可以在从未见过的细胞类型中预测基因表达,结果与实验数据高度一致。
接下来,研究人员展示了他们的AI系统在揭示疾病细胞隐藏生物学方面的强大能力,特别是针对一种遗传性儿童白血病。Rabadan说:“这些孩子继承了一个突变的基因,但这些突变具体做了什么并不清楚。”他同时也是哥伦比亚大学赫伯特·欧文综合癌症中心癌症基因组学和表观基因组学研究项目的联合主任。
通过AI,研究人员预测这些突变会破坏两个不同转录因子之间的相互作用,从而决定白血病细胞的命运。实验室实验证实了AI的预测。了解这些突变的影响揭示了驱动该疾病的具体机制。
新的计算方法还应允许研究人员开始探索基因组“暗物质”的作用——这一术语借自宇宙学,指的是基因组中不编码已知基因的大部分区域——在癌症和其他疾病中的作用。“绝大多数在癌症患者中发现的突变位于所谓的‘暗区’,这些突变不影响蛋白质的功能,基本上未被探索过,”Rabadan说。“我们的想法是使用这些模型,我们可以研究突变并照亮这部分基因组。”
目前,Rabadan正在与哥伦比亚大学及其他大学的研究人员合作,探索不同类型的癌症,从脑癌到血液癌症,学习正常细胞中调控的“语法”,以及细胞在癌症发展过程中的变化。这项工作也为理解许多其他疾病开辟了新途径,可能识别出新的治疗靶点。通过向计算机模型呈现新的突变,研究人员现在可以获得有关这些突变如何影响细胞的深刻见解和预测。
随着生物学领域最近在AI方面的进展,Rabadan认为这项工作是重大趋势的一部分:“这是一个全新的时代,生物学正在转变为一门预测性科学,这是非常令人兴奋的。”
(全文结束)

