哥伦比亚大学的研究人员开发了一种能够预测任何人类细胞中基因活动的人工智能方法,从而为细胞机制提供了深入见解,并推进了对癌症等疾病的理解。通过训练数百万个细胞的数据,这一系统实现了精确预测,揭示了基因相互作用和以前隐藏的基因组过程,有可能将生物学转变为一门预测科学。
研究人员来自哥伦比亚大学瓦格洛斯内外科医学院(Columbia University Vagelos College of Physicians and Surgeons),他们开发了一种新的AI方法,可以准确预测任何人类细胞中的基因活动,揭示了细胞内部机制。这项研究详细发表在最新一期的《自然》杂志上,该系统有潜力彻底改变科学家研究癌症、遗传疾病和其他疾病的方式。
“预测性通用计算模型能够快速而准确地揭示生物过程。这些方法可以有效地进行大规模计算实验,促进并指导传统的实验方法。”该论文的资深作者、系统生物学教授Raul Rabadan说。
传统生物学研究方法擅长揭示细胞如何执行其功能或对干扰作出反应,但无法预测细胞的工作方式或细胞对变化(如致癌突变)的反应。“如果我们能够准确预测细胞的活动,这将极大地改变我们对基本生物过程的理解,”Rabadan说,“它将使生物学从描述看似随机的过程转变为可以预测控制细胞行为的底层系统的科学。”
近年来,随着从细胞中积累的大量数据和更强大的AI模型,生物学正逐渐转变为一门更具预测性的科学。2024年的诺贝尔化学奖授予了研究人员,以表彰他们在使用AI预测蛋白质结构方面的开创性工作。然而,利用AI方法预测细胞内基因和蛋白质的活动一直较为困难。
在这项新研究中,Rabadan和他的同事尝试使用AI来预测特定细胞中哪些基因处于活跃状态。这种关于基因表达的信息可以帮助研究人员确定细胞的身份及其功能。“以前的模型是在特定细胞类型的特定数据上训练的,通常是癌细胞系或其他与正常细胞相差甚远的细胞类型,”Rabadan说。他的实验室研究生Xi Fu决定采取不同的方法,使用来自正常人体组织的数百万个细胞的基因表达数据训练机器学习模型。输入包括基因组序列和显示基因组哪些部分可访问和表达的数据。
总体方法类似于ChatGPT和其他流行的“基础”模型的工作方式。这些系统使用一组训练数据来识别底层规则,即语言的语法,然后将这些推断出的规则应用于新情况。“在这里,我们从许多不同的细胞状态中学习‘语法’,然后进入特定条件——它可以是患病细胞或正常细胞类型——并尝试查看我们能否根据这些信息准确预测模式。”Rabadan说。
Fu和Rabadan很快召集了一个由合作者组成的团队,包括共同第一作者Alejandro Buendia(现为斯坦福大学博士生,曾在Rabadan实验室工作)和卡内基梅隆大学的Shentong Mo,一起训练和测试新模型。
经过对超过130万个细胞的数据训练后,该系统变得足够准确,可以在从未见过的细胞类型中预测基因表达,结果与实验数据高度一致。
接下来,研究人员展示了他们的AI系统在揭示疾病细胞中仍隐藏的生物学方面的强大能力,特别是在一种遗传性儿童白血病中。“这些孩子继承了一个突变基因,但这些突变具体做了什么并不清楚。”Rabadan说,他也是哥伦比亚大学赫伯特·欧文综合癌症中心(Herbert Irving Comprehensive Cancer Center)癌症基因组学和表观遗传学研究项目的联合主任。
通过AI,研究人员预测这些突变会破坏两个不同转录因子之间的相互作用,这两个转录因子决定了白血病细胞的命运。实验室实验确认了AI的预测。了解这些突变的影响揭示了驱动这种疾病的具体机制。
新的计算方法还应允许研究人员开始探索基因组的“暗物质”——一个借自宇宙学的术语,指的是基因组中大部分不编码已知基因的部分——在癌症和其他疾病中的作用。“大多数在癌症患者中发现的突变位于所谓的基因组‘暗区’。这些突变不会影响蛋白质的功能,且大多未被探索。”Rabadan说,“我们的想法是利用这些模型,我们可以研究突变并照亮这部分基因组。”
目前,Rabadan正在与哥伦比亚大学及其他大学的研究人员合作,研究不同类型癌症,从脑癌到血液癌症,学习正常细胞的调控“语法”,以及细胞在癌症发展过程中的变化。
这项工作也为理解许多其他疾病开辟了新的途径,并可能识别出新治疗方法的目标。通过向计算机模型展示新突变,研究人员现在可以获得关于这些突变如何影响细胞的深刻见解和预测。
在其他最近的生物AI进展之后,Rabadan认为这项工作是生物学新时代的一部分:“这确实是一个非常令人兴奋的新时代;将生物学转变为一门预测科学。”
参考文献:“A foundation model of transcription across human cell types” by Xi Fu, Shentong Mo, Alejandro Buendia, Anouchka P. Laurent, Anqi Shao, Maria del Mar Alvarez-Torres, Tianji Yu, Jimin Tan, Jiayu Su, Romella Sagatelian, Adolfo A. Ferrando, Alberto Ciccia, Yanyan Lan, David M. Owens, Teresa Palomero, Eric P. Xing and Raul Rabadan, 8 January 2025, Nature.
DOI: 10.1038/s41586-024-08391-z
(全文结束)

