Biohub发布蛋白质生物学世界模型以应对疾病Biohub Releases Protein Biology World Model to Address Disease

环球医讯 / AI与医疗健康来源:www.genengnews.com美国 - 英语2026-05-28 17:43:35 - 阅读时长5分钟 - 2180字
Biohub(由普莉希拉·陈医学博士和马克·扎克伯格共同创立的非营利研究组织)发布了ESM蛋白语言模型家族的最新更新,包括ESMC和ESMFold2等模型,这些模型利用进化信息设计治疗性蛋白结合剂并映射未知蛋白空间,可针对癌症和免疫学领域的五种疾病靶点设计高亲和力蛋白结合剂,实验室验证命中率高达36-88%,有望将传统药物发现过程从数十年缩短至几周,为疾病治疗提供革命性新方法,该技术已在实验室中成功恢复T细胞信号传导功能,展示了巨大的临床应用潜力。
BiohubESM蛋白语言模型ESMFold2蛋白质设计药物发现癌症免疫学PD-L1CTLA-4EGFRT细胞信号传导基因编辑工具
Biohub发布蛋白质生物学世界模型以应对疾病

由普莉希拉·陈(Priscilla Chan)医学博士和马克·扎克伯格共同创立的非营利研究组织Biohub近日发布了ESM蛋白语言模型家族的最新更新,该更新在治疗性发现的结合剂设计和蛋白功能映射方面扩展了能力。此次发布距离Biohub招募EvolutionaryScale团队仅七个月。

该系统包括ESMC(进化尺度建模-寒武),这是一个在约28亿个序列上训练的语言模型,这些序列来自广泛的生命形式,包括适应极端环境的生物,以及在人体中发现的20000多种蛋白质。ESMC中编码的进化信息通过设计引擎和预测模型ESMFold2转化为原子分辨率的蛋白质结构和相互作用。

Biohub科学主管、前EvolutionaryScale首席科学家Alex Rives博士在本周冷泉港实验室举行的"生物学中的AI"研讨会上介绍了这项工作。

这些模型旨在通过使生物学更具可编程性来改变药物发现的最初阶段。虽然传统的发现工作流程依赖于缓慢且资源密集型的实验筛选来识别有希望的药物候选物,但由计算机模拟预测指导的合理蛋白质设计有可能显著加速开发时间线。

Rives告诉《GEN Edge》:"我们正处于蛋白质生物学的一个令人兴奋的阶段,准确的数字表示允许以实验室中不可能实现的规模提出实验问题。"

ESMFold2针对癌症和免疫学中的五个疾病靶点设计了高亲和力蛋白质结合剂:与肿瘤生长相关的受体酪氨酸激酶(EGFR和PDGFRβ)、癌症细胞用来逃避免疫监视的免疫检查点(PD-L1和CTLA-4),以及免疫细胞信号传导的调节剂(CD45)。

实验室验证的设计在紧凑型微型结合剂中实现了36-88%的命中率,在抗体衍生格式中实现了15-29%的命中率,同时还展示了与潜在临床效用一致的纳米摩尔结合亲和力、高特异性和良好的稳定性。值得注意的是,针对PD-L1的结合剂显示了治疗功能,并通过阻断与批准的检查点疗法相同的通路,在实验室测试中恢复了T细胞信号传导。

ESMFold2不需要多序列比对(MSAs)来构建表示,而是捕获预训练期间编码的进化信息。该模型还使用循环变换器架构,允许计算在推理时扩展,并避免了当训练受到有限实验蛋白质结构约束时可能出现的过拟合。

在基准测试中,与Chai Discovery的Chai-1、MIT的Boltz-1(其开发者后来成立了一家公益公司)以及Google DeepMind的AlphaFold 3相比,ESMFold2表现优异。

该模型在高度宽松的麻省理工学院(MIT)许可下对商业和非商业用途均开放。这项工作被描述为尚未经过同行评审的预印本。

全力投入AI生物学

去年11月,陈和扎克伯格承诺"全力投入AI驱动的生物学",宣布该组织的科学团队将统一在一个名为Biohub的单一实体下,他们将把大部分慈善努力放在这个实体上。

同时,Rives和EvolutionaryScale的同事们被招募来通过解码数十亿年来氨基酸的"语法"来应对疾病。同样的使命在2024年启动时曾获得1.42亿美元的巨额种子轮融资。该轮融资由Nat Friedman、Daniel Gross和Lux Capital牵头,并包括亚马逊网络服务(AWS)和Nvidia的企业风险投资部门NVentures的参与。

Biohub继续通过构建分子、基因组、细胞和生命系统的数字表示来推进虚拟生物学。新的ESM发布加入了Biohub不断增长的生物学模型生态系统,包括本月早些时候在《科学》杂志上发表的TranscriptFormer。

该组织最近向虚拟生物学计划投资了5亿美元,这是一个为期五年的活动,旨在加速技术和多模态数据集的创建,以构建生物学的预测模型。这一承诺是在该组织宣布与Arc研究所和Tahoe Therapeutics合作构建最大的单细胞化学扰动数据集以支持虚拟细胞后几个月做出的。

进化就是一切

Biohub已应用新的ESM模型生成ESM Atlas,该图谱使用ESMC的表示法将68亿个序列和11亿个预测结构映射到蛋白质功能。生成此图谱本需要"数十亿年的实验工作",但通过计算推断将其压缩为几周时间。ESM Atlas以开源形式发布。

通过使用稀疏自动编码器(SAEs),一种在大型语言模型中识别可解释结构的技术来探测ESMC的表示,作者发现该模型独立学习了层次结构,涵盖了单个氨基酸的基本化学性质、局部结构相互作用以及不相关蛋白质之间的功能概念,尽管它仅在序列数据上进行训练。

值得注意的是,ESM Atlas SAE特征簇将RNA引导的DNA内切酶、真核Fanzor蛋白及其进化祖先原核TnpB汇集在一起,尽管它们具有高度的进化分歧和低序列相似性。这些见解可能支持新型基因编辑工具的开发。

虽然预印本的结果距离临床影响还有一段距离,但Rives重申了开放科学的力量,即将这些工具放在直接从事转化研究的研究人员手中。

Biohub正在与多个平台合作伙伴合作,包括AWS Bio Discovery、Benchling、Phylo、Tamarind Bio、Modal、Tool Universe和SandboxAQ,以使这些模型广泛可用。

【全文结束】

猜你喜欢
  • 揭示细胞调控基因激活的"黑箱"策略揭示细胞调控基因激活的"黑箱"策略
  • 大语言模型在总结复杂癌症病理报告方面表现优于医生大语言模型在总结复杂癌症病理报告方面表现优于医生
  • 化学家利用海海绵细菌创造新分子用于药物发现化学家利用海海绵细菌创造新分子用于药物发现
  • 同构实验室筹集21亿美元用于人工智能药物研发同构实验室筹集21亿美元用于人工智能药物研发
  • AACR 2026 第一部分:AI设计、精准生物学与肿瘤学创新的下一波浪潮AACR 2026 第一部分:AI设计、精准生物学与肿瘤学创新的下一波浪潮
  • 研究人员开发出可映射人类细胞中基因协同工作方式的AI模型研究人员开发出可映射人类细胞中基因协同工作方式的AI模型
  • 不想吃蛋白质可能是癌症恶病质的早期征兆不想吃蛋白质可能是癌症恶病质的早期征兆
  • 构建AI药物发现流程构建AI药物发现流程
  • 液滴状凝聚体揭示主要药物靶点受体的新调控开关液滴状凝聚体揭示主要药物靶点受体的新调控开关
  • 新型AI扩散模型将加速药物研发新型AI扩散模型将加速药物研发
热点资讯
全站热点
全站热文