Arc发布了名为State的虚拟细胞模型,该模型基于近1.7亿个细胞的数据进行训练,以预测不同类型的细胞如何对药物和基因扰动作出反应。
State模型在区分扰动效应方面比现有模型提高了50%,在识别差异表达基因方面的准确性则是现有模型的两倍。此外,State可以模拟干细胞、癌细胞和免疫细胞对各种治疗的反应,而无需先进行实验测试。
基于1.7亿细胞数据的训练
State模型利用了来自近1.7亿个细胞的观察数据以及超过1亿个细胞的扰动数据,这些数据涵盖了70种细胞系。该模型使用了Arc虚拟细胞图谱中的数据,并可供非商业用途使用。
模型由两个相互关联的模块组成。State Embedding模型将转录组数据转换为计算机更容易理解的多维向量空间。State Transition模型则预测细胞在给定扰动下如何在学习到的流形中不同部分之间转换。
比现有模型更高的准确性
在Tahoe-100M数据集上的基准测试中,State模型在区分扰动效应方面表现出50%的提升,并且在识别真正差异表达基因方面的准确性是现有计算方法的两倍。
State是首个在这一领域持续超越简单线性基线的模型。该模型基于超过1亿个细胞的扰动数据进行训练,其规模超过了迄今为止的任何其他模型。
专注于因果关系的扰动数据
State主要使用扰动数据,其中特定基因被故意改变以观察它们对细胞的影响。与观察数据不同,扰动数据捕捉基因之间的因果关系,并直接反映潜在的生物学机制。
虽然可能需要数万次观察才能推断出两个基因之间的直接关系,但扰动数据可以通过单次测量捕获相同的相互作用。Arc还开发了scBaseCount,这是该领域首个统一收集和分析单细胞数据的智能AI系统。
药物开发中的应用
大约90%的药物在临床试验中因疗效不佳或意外副作用而失败。研究人员测试的每种药物本质上都是一种专门设计的探针,用于以特定方式扰动细胞。
高性能的虚拟细胞模型可以帮助研究人员发现能够将细胞从疾病状态转变为健康状态的新药物,并减少副作用,从而提高临床试验的成功率。
State可用于模拟细胞对扰动的反应,并利用这些预测来提名和发现新药物。研究人员可以运行数百万次计算机模拟扰动,以缩小假设范围,从而推动原创性发现。
可扩展性与未来发展
虚拟细胞的训练数据仍在不断增长,这进一步提高了模型的预测准确性。多年来,扩展定律已在多个领域得到观察,但在生物学领域的应用最近才得以确立。
Arc还推出了Cell_Eval,这是一个针对虚拟细胞建模的综合评估框架。该框架超越了传统指标,包含一套生物相关且可解释的指标,专注于差异表达预测。
(全文结束)

