一组来自Dana-Farber癌症研究所、麻省理工学院和哈佛大学Broad研究所、谷歌和哥伦比亚大学的研究人员开发了一种人工智能模型,可以预测任何类型人类细胞中哪些基因会被表达。这个模型被称为EpiBERT,其灵感来源于设计用于理解和生成类似人类语言的深度学习模型BERT。
EpiBERT经过多个阶段训练,使用了来自数百种人类细胞类型的数据。它被输入了长度为30亿个碱基对的基因组序列,以及染色质可及性的图谱,这些图谱告知哪些序列从染色体上解开并被细胞读取。该模型首先被训练来学习特定细胞类型中DNA序列和染色质可及性之间的关系。然后,它利用这些学到的关系来预测相应细胞类型中哪些基因处于活跃状态。它准确地识别出了调控元件——即转录因子识别的基因组部分——及其对多种细胞类型中基因表达的影响,构建了一个通用且可预测的“语法”。这个语法构建过程类似于大型语言模型(如ChatGPT)通过大量文本示例学习构建有意义的句子和段落的方式。EpiBERT模型可以处理可及性并预测从未见过的细胞类型的功能基础及RNA表达。
人体内的每个细胞都具有相同的基因组序列,因此两种细胞类型之间的差异不是基因组中的基因,而是哪些基因被激活、何时激活以及激活程度如何。大约20%的基因组编码调控元件,这些元件决定了哪些基因被激活,但目前对这些代码在基因组中的位置、它们的指令形式或突变如何影响细胞功能知之甚少。EpiBERT将揭示基因在细胞中的调控方式,以及细胞调控系统可能因突变而导致诸如癌症等疾病的方式。
该项目得到了Broad研究所、诺和诺德基金会、国家基因组研究所、Sharf Green癌症研究基金、Richard和Nancy Lubin家庭以及美国癌症协会的支持。谷歌提供了张量处理单元(TPU)访问和支持。
来源:Dana-Farber癌症研究所
期刊参考:Javed, N., et al. (2025). A multi-modal transformer for cell type-agnostic regulatory predictions. Cell Genomics. doi.org/10.1016/j.xgen.2025.100762.
(全文结束)

