为了理解DNA与疾病的关系,洛斯阿拉莫斯国家实验室的科学家们开发了首个此类多模态深度学习模型EPBDxDNABERT-2,该模型能够确定转录因子(调节基因活动的蛋白质)与DNA之间的精确关系,利用DNA的一种特性——DNA呼吸,即双螺旋结构自发地打开和关闭。该模型有可能帮助设计用于治疗基因活动引发疾病的药物。
“有多种类型的转录因子,而人类基因组是难以想象的巨大,”洛斯阿拉莫斯的研究员兼论文第一作者阿诺瓦鲁·卡比尔(Anowarul Kabir)说,“因此,有必要找出哪种转录因子会结合到DNA结构的哪个位置。我们试图用人工智能,特别是深度学习算法来解决这个问题。”
基于DNA训练的深度学习模型
DNA由相当于30亿个英文字母组成,写入每个细胞中,提供了人类生命如何生长和维持的蓝图。转录因子结合到DNA的部分,影响基因表达的调控:个别基因如何提供特定的指令来指导细胞的发展和功能。因为这种表达可以表现为疾病,如癌症,预测结合特定基因位置的转录因子可能对药物开发具有重要意义。
研究团队使用的基线模型是在DNA序列上训练的。他们构建了一个DNA模拟程序,捕捉了众多的DNA动力学,并将其与基因组基础模型集成,最终形成了EPBDxDNABERT-2,该模型能够处理跨染色体的基因组序列,并将相应的DNA动力学作为输入。其中一个输入是DNA呼吸,即DNA双螺旋结构的局部和自发开合,这与转录活性(如转录因子结合)相关。
“将DNA呼吸特征与DNABERT-2基础模型集成大大增强了转录因子结合预测的准确性,”洛斯阿拉莫斯研究员马尼什·巴塔拉伊(Manish Bhattarai)说,“我们将DNA代码片段作为输入提供给模型,并询问模型这些片段是否结合到转录因子,在许多细胞系中进行测试。结果提高了特定基因位置与多个转录因子结合的预测概率。”
使用Venado进行AI算法
研究团队在其最新的超级计算机Venado上运行了他们的深度学习模型,该计算机结合了中央处理器和图形处理器,以推动人工智能能力。深度学习模型的工作方式类似于大脑的神经网络,结合图像和文本,揭示复杂的模式以生成预测和洞察。
为了训练模型,团队使用了来自690个实验结果的基因测序数据,涵盖了161种不同的转录因子和91种人类细胞类型。他们发现,EPBDxDNABERT-2在一个关键指标上显著提高了9.6%的预测性能,即超过660种转录因子的结合预测。进一步的体外数据集实验,即在受控环境中进行的实验,补充了体内数据集,即直接从活体生物(如小鼠)研究中提取的数据。
研究团队发现,虽然单独的DNA呼吸几乎可以准确估计转录活性,但多模态模型可以提取结合基序,即转录因子结合的具体DNA序列,这是解释转录过程的关键元素。
“正如其在多个多样数据集上的表现所证明的那样,我们的多模态基础模型表现出多功能性、稳健性和有效性,”巴塔拉伊说,“该模型标志着计算基因组学的重大进展,为分析复杂的生物机制提供了 sophisticated 工具。”
论文
“DNA呼吸与深度学习基础模型的整合提高了全基因组范围内人类转录因子结合预测。” Nucleic Acids Research。DOI: 10.1093/nar/gkae783
资助
该工作得到了美国国立卫生研究院和美国国家科学基金会的支持。
期刊链接
Nucleic Acids Research
(全文结束)

