不可见的"暗物质"——宇宙学家称之为将一切维系在一起的神秘"胶水"——估计占宇宙总量的四分之一以上。而在化学领域,"暗物质"指的是骨骼和组织中数千种无法通过质谱法识别的小分子。这些分子构成了所谓的代谢物的绝大部分。
如今,阿尔伯塔大学计算科学博士生王飞(Fei Wang)在计算机科学家Russ Greiner和生物化学家David Wishart的指导下,与国际研究团队合作,开发出一种"化学语言模型"。该模型基于2000多种已知人类代谢物的化学结构进行训练,旨在绘制整个哺乳动物代谢组的"暗物质"图谱。他们的研究成果已于1月份发表在《自然》杂志上。
正如ChatGPT等人工智能模型通过学习语言模式来预测句子中的下一个词一样,他们命名为DeepMet的模型通过已知代谢物的化学结构学习代谢的"逻辑",从而预测尚未被发现的代谢物。
通过生成十亿种潜在结构,研究人员推测AI最常生成的分子最有可能是真实的代谢物,本质上是通过预测生物化学过程来识别体内剩余的未知分子。该团队迄今已成功在人体和小鼠样本中识别出数十种先前未被认识的哺乳动物代谢物。
研究作者表示,代谢物是维持身体功能的关键组成部分,因此了解它们如何为身体提供能量、构建结构并向身体不同部位发送信号,可能会带来更好的诊断方法或更有效地针对代谢途径的新药。
Greiner表示:"基因就像是你身体的蓝图,描述了你与生俱来的东西。而代谢物则反映了你身体此刻正在发生的变化,这显然非常重要。"
Hantao Qiang等人,《语言模型引导的哺乳动物代谢物预测与发现》,《自然》(2026)。DOI: 10.1038/s41586-025-09969-x
【全文结束】

