西奈山伊坎医学院的科学家们创建了一种新的人工智能(AI)模型,该模型有助于揭示基因如何在人类细胞内部协同工作,为理解生物学和疾病提供了强有力的全新方法。
发表在《Patterns》期刊上的这项研究介绍了一种基因集基础模型(GSFM),该模型旨在学习基因在数千种生物情境中如何分组和发挥作用的模式。论文题为"GSFM:在大规模多样化基因集集合上预训练的基因集基础模型"。
这项工作从大型语言模型(LLMs)如ChatGPT的进展中获得灵感,这些模型学习词语如何根据上下文获得意义。类似地,GSFM学习基因如何根据不同细胞"上下文"表现出不同行为。
"基因很少单独行动。相反,它们参与多个生物过程,根据在细胞中活跃的位置和时间形成不同的分子组合。单个基因在不同环境中可以扮演不同角色,就像一个词语在不同句子中可以有不同含义一样,"西奈山伊坎医学院(Icahn School of Medicine at Mount Sinai)药理科学教授、西奈山生物信息学中心(Mount Sinai Center for Bioinformatics)主任、资深通讯作者Avi Ma'ayan博士说道。
"正如现代语言模型从上下文中学习词语的含义,我们询问AI是否能以同样方式学习基因的'含义'。我们的GSFM正是为此而设计的。"
该模型为理解人类细胞内基因及其产物的结构和功能组织提供了新方法。这种改进的理解最终可能支持开发更好的诊断方法、生物标志物和疗法。
研究者表示,通过在多种生物情境中映射基因之间的相互关系,GSFM创建了一个参考框架,可以帮助科学家更有效地解释复杂的多组学数据集。
"细胞内基因的组织仍然是生物学中主要的未解之谜之一。GSFM通过从已发表研究和基因表达数据集衍生的数百万基因组合中学习来解决这一问题,"Ma'ayan博士说道。
该模型可以:
- 无需立即进行实验室实验即可帮助识别功能不明确的基因
- 突出参与疾病过程的基因
- 建议潜在的新药物靶点和生物标志物
- 为多种生物医学研究数据分析任务提供可重复使用的知识系统——例如,改进的基因集富集分析
研究者表示,本质上,GSFM提供了一种关于基因如何在不同情境中协同工作的新"地图"。
为了构建该模型,研究人员从已发表的科学研究和基因表达数据集中汇编了数百万个基因集。总的来说,该系统从数十万项独立研究中学习。
AI模型的训练方式类似于解决拼图:它被给予部分基因集并要求预测缺失部分。随着时间推移,它学习了描述基因如何分组和相互作用的基本模式。
该AI模型随后与其他方法进行了基准测试,并展示了强大的性能,包括能够在实验确认前识别基因-基因和基因-功能关系的能力。
为了评估这一点,模型使用截止日期前出版物中的基因集进行训练,然后测试它是否能够预测该截止日期后发表的研究中报告的发现。
"与主要依赖基因表达数据的先前生物AI模型不同,我们的GSFM独特地在基因集上进行训练,这是一种不同且很大程度上未充分利用的生物信息类型,"Ma'ayan博士说道。"这种方法使模型能够整合来自多种疾病、实验方法和研究条件的多样化数据,创建跨生物学的基因关系统一表示。"
GSFM可以增强现有生物信息学工具,并改进使用组学技术收集的数据的解释。一个直接应用是在基因集富集分析中,这是分子生物学研究中广泛使用的方法。
通过改进科学家对基因组合的解释方式,该模型可能有助于从现有和未来数据集中发现新的生物学见解。
研究团队计划通过将GSFM与其他AI基础模型结合来扩展该系统。一个目标是将其与基于语言的模型集成,以生成基因功能的自然语言解释。
另一个未来方向是将GSFM与专注于药物的AI模型结合,长期目标是预测药物如何与细胞相互作用并支持新疗法的设计。
【全文结束】

