总部位于旧金山和伦敦的Prima Mente公司,是一家致力于构建分子生物学和神经退行性疾病研究领域的AI原生基础设施的全球性企业。近日,该公司宣布推出Pleiades,这是一系列大规模基础模型,旨在解析人类疾病的表观基因组和分子图景。
Pleiades模型是一组生成式Transformer模型(参数量分别为9000万、6亿和70亿),在单核苷酸分辨率下,基于1.9万亿个token进行训练。这项研究发表在一篇最新的预印本论文中,该论文由牛津大学、耶路撒冷希伯来大学和哥德堡大学的研究人员共同撰写。
Pleiades基于人类细胞类型的甲基化图谱以及细胞游离DNA(cfDNA)数据进行训练,标志着阿尔茨海默病研究和转化医学的新纪元——它能够在不同细胞亚型中以前所未有的精度从血液中检测疾病相关信号,识别用于实验设计的分子特征,并揭示早期干预的潜在靶点。
Prima Mente首席执行官Ravi Solanki表示:“我们认为表观遗传学和cfDNA是理解大脑机制最强大但尚未被充分利用的切入点之一。它们为我们提供了一种非侵入性的视角,可以观察细胞活动和功能障碍——特别是在神经退行性疾病中——其分辨率是几年前无法想象的。借助Pleiades,我们正在构建AI基础设施,将这些信号转化为有意义的发现、诊断,最终实现干预。”
与传统模型不同,Pleiades采用大规模基于Transformer的架构,直接从原始测序数据中学习。它可以预测cfDNA片段的细胞来源,揭示组织和疾病特异性的甲基化模式,并生成合成的cfDNA以支持计算机模拟实验。关键在于,研究团队证明模型性能能够随着数据和计算资源的增加而稳定提升,将大型语言模型和视觉模型中观察到的AI扩展规律延伸到生物学领域,并为未来的多组学建模奠定了基础。
该模型目前已应用于多种生物学任务,包括组织分类、疾病检测和片段重建,使其能够跨组织和疾病进行泛化,同时学习分子功能的共享表征。在早期的阿尔茨海默病研究中,Pleiades已显示出在临床症状出现前就能检测到源自神经元、小胶质细胞和T细胞的cfDNA信号,从而提示神经退行性病变。
哥德堡大学神经退行性疾病研究专家Henrik Zetterberg教授表示:“Pleiades代表了我们利用血液生物标志物研究阿尔茨海默病的重要进展。在这一层面上理解细胞类型来源和调控紊乱,可能使我们实现更早、更准确的诊断,并揭示新的生物学干预途径。我很高兴看到这种方法与基于蛋白质的生物标志物结合使用,这将带来大量令人兴奋的研究,并真正推动个性化医疗的发展,帮助识别具有不同疾病驱动因素的神经退行性疾病亚型。”
为了扩展Pleiades的训练,Prima Mente与NVIDIA合作,利用DGX基础设施进行高性能计算,确保计算资源能有效用于解析复杂疾病的生物学机制。此外,为了训练和测试Pleiades,Prima Mente还与Nebius、Siam AI和Eternis Labs合作,构建分布式计算基础设施。这些团队将继续在数据收集和未来的训练计划中展开合作。
Pleiades的发布标志着Prima Mente进入了一个强劲的发展阶段。除了模型发布外,公司还建立了湿实验室,用于高通量多组学数据的生成,并开始在调控、转录组和蛋白质组层面上模拟疾病进展。公司将于下个月启动一项涉及1000名患者的阿尔茨海默病研究,并正在积极与人工智能、学术界和生命科学领域的合作伙伴建立联系,将这些模型转化为用于发现、诊断和干预的实用工具。
【全文结束】

