再生医学和治疗性干细胞疗法用于再生受损细胞作为疾病治疗手段。当Nvidia的CEO讲话时,决策者们都会倾听,从投资者到企业高管再到诺贝尔奖委员会。自从Jensen Huang六个月前观察到生物学首次有机会从科学探究转向工程严谨以来,美国生命科学和生物技术公司的资金投入加速增长。细胞和基因疗法是利用生命构建块来治疗、预防或潜在治愈疾病的首要候选者。
2024年的诺贝尔奖体现了多个学科的融合——分子生物学、神经科学、计算机科学、计算统计学、物理学和人工智能,共同塑造新的医疗保健格局。生理学或医学奖得主Victor Ambros和Gary Ruvkun研究了不同细胞类型的发展,导致他们发现了微小RNA,这是一种在基因调控中起关键作用的新一类小RNA分子。化学奖的一半授予了David Baker,他开发了可以预测蛋白质结构的计算机软件,然后反向工程化该过程:输入所需的蛋白质结构并获得其氨基酸序列的建议,从而能够创建全新的蛋白质。化学奖的另一半授予了Demis Hassabis和John Jumper,他们使用现代AI预测了所有已知2亿种蛋白质的结构,为研究人员提供了以前需要数月甚至数年才能完成的工作在几分钟内完成的工具。物理学奖得主John Hopfield和Geoffrey Hinton为现代AI——使用人工神经网络的机器学习(也称为深度学习)铺平了道路。
“生物学是一个非常混乱的领域,非常适合转变为工程学,”Somite.ai的联合创始人兼CTO Jonathan Rosenfeld说。Rosenfeld已经将工程学的预测能力带入了另一个同样年轻但更年轻的领域,即现代AI。当你使用特定的工程方法或过程时,通常可以预测其对性能的影响和预期结果。在深度学习中,有一个普遍的观点——“扩展假设”——即通过增加资源、应用更多数据和更多计算能力,将获得更好的结果。但Rosenfeld表示:“我们接近极限了吗?我们是否以最快的速度进步?我们甚至走在正确的方向上吗?就在五年前,我们还一无所知。”
从2017年到2021年,Rosenfeld在麻省理工学院攻读博士学位,于2019年率先研究AI扩展定律,回答了性能如何依赖于数据的数量和质量、模型的大小和类型以及部署的计算量的问题。Rosenfeld的扩展定律随后被其他先驱者扩展,最著名的是OpenAI。AI扩展定律赋予了该领域工程学的预测能力:你可以提前知道投资数百万美元训练单个模型会得到什么。“我们现在可以有预见地说什么会提高性能以及提高的速度。我们可以回答这个问题:‘这项投资值得吗?’”Rosenfeld说。
此外,扩展定律及其预测结果有助于更好地理解给定的结果。Rosenfeld表示,这使得可以提出并回答诸如“我们是否达到了效率的极限?我们能做得更好吗?我们能更快地前进吗?我们了解当前限制的来源吗?”等问题。
完成博士学位后,Rosenfeld短暂在几家初创公司工作,但决心在AI和生物学的交汇处创立自己的公司。与经验丰富的AI企业家Micha Breakstone合作,Rosenfeld创立了Somite.ai,同时继续担任麻省理工学院FundamentalAI小组的负责人。加入Breakstone和Rosenfeld作为联合创始人的是哈佛医学院遗传学教授兼Brigham和Women's医院病理学教授Olivier Pourquié;哈佛医学院系统生物学教授Allon Klein;哈佛医学院遗传学教授兼系主任Cliff Tabin;以及华盛顿大学基因组科学教授Jay Shendure。
这个由干细胞生物学、医学、遗传学、工程学、统计学、计算机科学和机器学习领域的领先专家组成的梦想团队,在其“将干细胞生物学转变为计算工程挑战”的旅程第一年取得了显著进展,Breakstone说。该公司为其首个项目获得了FDA孤儿药指定和罕见儿科疾病指定,目标是杜氏肌营养不良症,这是最常见的遗传性神经肌肉疾病(每3500名男婴中就有1人出生时患有此病)。Rosenfeld补充道:“这是迈向未来的第一步,在未来,人类将拥有备用部件——我们可以控制任何细胞类型的创造,掌握自然的细胞程序。”
Somite.ai迄今已筹集超过1000万美元的种子轮融资,包括最近从Astellas Venture Management(由Astellas Pharma全资拥有)和Montage Ventures获得的额外资金。该公司已推出其AI平台AlphaStem的第一阶段,以及第二个针对代谢障碍的项目。“我们在生物学方面取得了巨大进展,但AlphaFold只是关于构建块,”Rosenfeld说。“如果你从系统层面看,例如细胞,它就像一台超级计算机,同时运行许多程序。理解这些细胞的语言、它们的运行语言以及它们如何执行是一个开放的问题,我们现在正处于能够解决这一问题的边缘,这得益于AI驱动的数据扩展和生物学领域的专业知识。”
AlphaFold是将新颖的机器学习和搜索算法应用于数十年积累的蛋白质氨基酸序列和结构数据的结果。同样,生物学家现在可以实际看到细胞在任何给定时间的状态,并收集之前无法获得的此类数据和其他类型的数据,增加了数十年积累的遗传和系统级数据。今天的生物学家有能力详细绘制胚胎中细胞分化的发展过程。“这是一个昂贵的过程,但现在已经达到不会过于昂贵的地步,”Rosenfeld说。缺失的是控制这一细胞分化过程的编程语言,指导细胞通过所有分支点。需要一个细胞分化的导航程序,识别任何给定时间所需的信号(例如化学物质或蛋白质)。“如果我们知道如何协调,如何指挥这场交响乐,如何掌握这种信号语言,”Rosenfeld说,“我们就可以随意生产任何细胞类型。”
Somite.ai的专家团队知道如何高效准确地生产体节,这是负责产生肌肉骨骼系统及相关组织的胚胎结构。破译这些细胞如何生长成肌肉的语言,将使他们能够开发出一旦注入人体即可修复缺失肌肉组织的细胞。
目前有一些公司,如Vertex和Novo Nordisk,已经在细胞疗法方面展示了首批临床成功。他们花费了大量时间和资源生产特定细胞类型,Rosenfeld称之为“手工方式”。他说:“直到现在,还没有一种可扩展的方法来随意生产任何细胞类型。这是我们正在解决的缺口。”要大规模实现这一点,需要大量的信号数据和一个预测特定信号对细胞影响的模型。Somite.ai有一种经济高效的方法来生成大量数据,足以让其AI程序自行学习(自我监督而非专家监督),并提高性能。“专家们既慢又贵,我想比专家做得更好,”Rosenfeld说。“这就是搜索与深度学习结合在有许多相关数据点的情况下进行自我监督学习时可以发挥重要作用的地方。”
现代计算的历史充满了强化学习专家Rich Sutton所说的“苦涩教训”,即“从长远来看,唯一重要的是计算资源的利用。”Rosenfeld说:“随着计算资源和数据的扩展,那些在数据匮乏和计算受限环境中精心设计解决方案的人类专业知识将被超越。如果我们有足够的数据并且知道如何很好地提出问题,我们可以在任何领域比最好的专家取得更大的进展。”
(全文结束)

