谷歌与耶鲁大学研究人员成功开发出更"先进且功能强大"的单细胞RNA数据分析人工智能模型,该模型运用大型语言模型技术,有望"带来新见解并推动潜在生物学发现"。谷歌在公告中表示:"此次发布标志着人工智能在科学领域的重要里程碑。"
在社交媒体和公开评论中,科学家与开发者们对这款于10月15日发布的模型表示赞赏,认为它正是使单细胞数据可被人工智能解读所需的桥梁。许多科学家,包括专注于提升免疫疗法效果的癌症研究人员,一直致力于通过单细胞数据来理解促进或阻碍疾病进展的机制,但数据规模与复杂性严重制约了研究进程。
谷歌在四月的博文中解释道:"单细胞数据体量庞大、维度高且难以解读。每个细胞可通过数千个基因表达测量值表示,传统上需要专业工具和模型进行分析,这导致单细胞分析速度缓慢、难以规模化且仅限专家使用。"
在与耶鲁大学David van Dijk博士实验室合作下,谷歌研究院今春推出了名为Cell2Sentence-Scale的初始工具版本,将其描述为"一系列功能强大的开源大型语言模型(LLMs),经训练可'阅读'和'书写'单细胞级别的生物数据"。在正式发布前,耶鲁与谷歌研究人员已测试了该模型在生物学问题中的应用。即将发表的论文将揭示其在癌症治疗通路方面的突破性发现。
Van Dijk的耶鲁实验室将其工作描述为致力于构建"可跨生物尺度学习的大规模基础模型——从单个分子到完整器官。通过将组学数据视为生物语言,我们的模型构建出能解码驱动癌症、自身免疫疾病及组织再生的细胞程序的虚拟细胞"。耶鲁医学院医学(心血管医学)助理教授van Dijk表示:"正如AlphaFold改变了我们对蛋白质的认知,我们正迎来细胞生物学的同等突破时刻。我们现在终于能在特定环境下通过计算机模拟真实人类细胞行为。此时,人工智能不再仅是分析工具,而开始成为生物学本身的模型系统。"
最新发布的Cell2Sentence-Scale 27B模型是前代版本的扩展升级版。谷歌博文总结道:"该开源模型及相关资源现已向科研社区开放。我们诚邀您探索这些工具,在我们的工作基础上继续推进,并助力我们持续破译生命语言。"
【全文结束】

