哥伦比亚大学与陈-扎克伯格团队开发1030万参数模型 在细胞类型分类任务中超越1亿参数模型Columbia-CZ team develops 10.3M parameter model that bests 100M parameter rivals on cell type classification

环球医讯 / AI与医疗健康来源:www.drugdiscoverytrends.com美国 - 英文2025-07-30 23:33:11 - 阅读时长5分钟 - 2157字
哥伦比亚大学和陈-扎克伯格生物枢纽团队开发了一种名为GREmLN的基础模型,仅使用1030万参数就在细胞类型分类任务中表现出色,超越了竞争对手scFoundation等1亿参数模型。该模型利用基因调控网络在人类免疫细胞数据上达到了0.929的宏观F1分数,为细胞类型分类任务提供了一种更高效的方法。该模型还展示了重建基因表达的能力,在免疫细胞上达到了0.883的R²分数,在癌细胞浸润髓系细胞上达到了0.861的R²分数。
GREmLN模型细胞类型分类基因调控网络主调节器癌症治疗基因表达重建ARACNe算法健康人类细胞CZBiohubNY扰动数据
哥伦比亚大学与陈-扎克伯格团队开发1030万参数模型 在细胞类型分类任务中超越1亿参数模型

由哥伦比亚大学和陈-扎克伯格生物枢纽团队开发的一种新的基础模型GREmLN,仅使用1030万参数就在细胞类型分类任务中表现出色,超越了竞争对手如1亿参数的scFoundation模型。该模型于7月9日在bioRxiv上发布,利用基因调控网络在免疫细胞数据上达到了0.929的宏观F1分数。

"我们不得不解决一些非常复杂的数学问题,将概念扩展到我们称之为大图模型的领域,而不是使用基于顺序数据的大语言模型,"陈-扎克伯格生物枢纽纽约分部的主席Andrea Califano博士解释道,他也是这篇论文的资深作者。"在细胞中没有序列,"他说。"第一个基因和第二个基因之间没有任何固有的顺序。顺序是由基因产物相互调节的类似图的结构创造的。"

GREmLN论文报告称,它在细胞类型分类任务中相对于现有的基础模型实现了优越的性能。对于人类免疫细胞,GREmLN达到了0.929的宏观F1分数,超过了Bo Wang博士实验室在2024年发表在《自然方法》上的3300万参数模型scGPT(0.924±0.002);Christina Theodoris博士等人在2023年发表在《自然》上的3000万参数迁移学习模型Geneformer(0.792);以及在2024年发表在《自然方法》上的1亿参数模型scFoundation(0.879)。

该模型还展示了重建基因表达的能力,在免疫细胞上R²分数达到了0.883,在癌细胞浸润髓系细胞上达到了0.861。"这很关键,因为否则你需要大量的数据和大量的计算资源来训练模型,"Califano说。

GREmLN的方法建立在数十年对"主调节器"研究的基础上:整合多种突变效应的枢纽蛋白。"在过去20年里,肿瘤学的座右铭一直是靶向特定突变,这种方法效果并不理想。只有大约11%的癌症患者受益,而且这种益处通常是短暂的,"他指出。"原因是肿瘤中的每个细胞都有不同的突变集合。如果你靶向一个突变,你只能杀死依赖于该突变的细胞。"

靶向枢纽,而非辐条

他的解决方案涉及找到细胞等效的电话交换:"'想象一下就像所有通话都通过同一个枢纽的电话交换。与其弄清楚哪次个别通话超载了系统,我们找到枢纽并在此解决问题。这些枢纽就是主调节器:整合所有突变效应的蛋白质。通过靶向少量这些蛋白质,通常大约十个,我们就可以解决由无数不同突变模式引起的癌症问题。'"

内部机制:GREmLN蓝图

该模型的强大之处在于整合了由ARACNe算法生成的基因调控网络。ARACNe(准确细胞网络重建算法)通过分析基因表达数据中的模式来识别哪些基因控制其他基因。它通过测量基因共表达的强度(互信息),使用统计抽样(自助法)确保可靠性,并去除虚假连接来实现这一点。这些网络在揭示主调节器蛋白和确定它们对小分子的敏感性方面已经证明有效,包括在临床试验中的应用。

训练GREmLN模型仅需在8个Nvidia H100 80G GPU上并行运行1个完整周期。虽然硬件很强大,但与通常需要数周训练的基础模型相比,训练时间非常高效。预训练数据集包括来自健康人类细胞的1100万个scRNA-seq(单细胞RNA测序)概况,涵盖了19000个基因,来源于CELLxGENE数据集,覆盖了162种细胞类型。每个概况代表了一个细胞中哪些基因活跃的快照,提供了人体内细胞状态的大型图谱。

展望未来,Califano的团队计划使用CZ Biohub NY独有的大量扰动数据来增强GREmLN。这些数据将包括数百万个细胞中个体调控基因被系统沉默的概况。"对于这个第一代,我们使用了与其他模型相同的数据以进行公平比较,"Califano指出。"但向前看,我们将使用我们在内部生成的大量扰动数据。"这种方法可能会进一步完善主调节器的识别,建立在Califano先前已经指导过成功的癌症试验的工作基础上。

陈-扎克伯格倡议设定了一个雄心勃勃的目标:到本世纪末治愈、预防或管理所有疾病。Califano支持这一目标的愿景与CZI的基于框架的方法相一致。"我对'治愈所有疾病'的解释不是我们要为20000多种罕见遗传疾病中的每一种都开发特定药物。相反,我们将创建一个允许我们解决这些问题的框架。" 这种框架方法代表了他所说的"归类化",即寻找通用的基础元素,而不是将每种疾病视为独特的。

这项工作还与陈-扎克伯格倡议构建能够预测细胞行为的AI驱动虚拟细胞的工作相辅相成。目前的AI模型将细胞中的基因视为句子中的单词,但基因并没有自然的顺序——它们更像是互连组件的网络。"细胞本质上就像一台计算机,"Califano解释道。"如果你能弄清楚它的逻辑,也就是决定其行为的分子相互作用网络,你就能以惊人的准确性预测它在受到扰动时会做什么。"随着GREmLN现在可在CZI的虚拟细胞平台上使用,研究人员可以开始解码这些细胞电路——超越仅仅读取遗传密码,去理解它们的逻辑。

【全文结束】

大健康

猜你喜欢

  • Sidra Medicine助力揭示罕见先天性疾病遗传病因Sidra Medicine助力揭示罕见先天性疾病遗传病因
  • 实验室遭导弹摧毁后,魏茨曼科学家发表创新血液癌症研究实验室遭导弹摧毁后,魏茨曼科学家发表创新血液癌症研究
  • 追踪衰老的扩散及其对衰老的影响追踪衰老的扩散及其对衰老的影响
  • 人工智能通过检测外泌体硬度识别肺癌人工智能通过检测外泌体硬度识别肺癌
  • 减少饮食中的丝氨酸可能帮助毛囊干细胞更快愈合皮肤伤口减少饮食中的丝氨酸可能帮助毛囊干细胞更快愈合皮肤伤口
  • 阿布扎比卫生部与美国儿童国家医院合作推动儿童细胞与基因治疗阿布扎比卫生部与美国儿童国家医院合作推动儿童细胞与基因治疗
  • 细胞保护蛋白的隐藏作用为癌症治疗带来新可能细胞保护蛋白的隐藏作用为癌症治疗带来新可能
  • 科学家发现可能预防阿尔茨海默病的基因突变科学家发现可能预防阿尔茨海默病的基因突变
  • 饥饿蠕虫揭示细胞衰老的隐藏开关饥饿蠕虫揭示细胞衰老的隐藏开关
  • 阿布扎比卫生部与美国儿童国家医院合作推进细胞与基因疗法阿布扎比卫生部与美国儿童国家医院合作推进细胞与基因疗法
大健康
大健康

热点资讯

大健康

全站热点

大健康

全站热文

大健康