许多药物和抗体发现途径都集中在错综复杂的细胞膜蛋白质上。当候选药物分子与这些蛋白质结合时,就像钥匙插入锁中一样,会触发改变细胞行为的化学级联反应。因此,了解蛋白质如何折叠和运动对于开发能与靶标良好相互作用的药物至关重要。
人工智能(AI)是生成新型蛋白质结构的非常有用的工具,但大多数系统——包括谷歌DeepMind的AlphaFold——都专注于生成蛋白质的静态"快照"。影响蛋白质与其他分子相互作用的侧链结构中原子的细微重排并未被捕捉到。
现在,洛桑联邦理工学院生命科学学院的科学家们与工程学院的数据处理专家合作解决了这个问题。由蛋白质和细胞工程实验室(LPCE)的Patrick Barth和信号处理实验室(LTS2)的Pierre Vandergheynst领导的研究人员开发了一种基于AI的生成框架,称为全蛋白质生成的潜在扩散(LD-FPG),该框架可生成完整的蛋白质全原子结构集合及其运动。
"蛋白质就像微小的机器,它们跳舞并开关工作,但以完整细节生成这种'电影'一直是一个未解决的挑战,"LPCE研究员Aditya Sengar说。"我们的LD-FPG框架是第一个做到这一点的。我们的模型不是试图预测空间中原子的精确坐标,而是学习蛋白质形状变化的低维映射。这种概念上的转变使得生成全原子动态成为可能。"
该新框架可以显著生成复杂药物靶标(如G蛋白偶联受体(GPCRs))的完整运动范围:这是全球药物开发行业的重点。
"LD-FPG为设计针对蛋白质动态行为而非仅其形状的新药物打开了大门。我们的工作代表了计算生物学的新范式,也是AI与结构生物学接口的一个有意义的进展,"Barth说。这项工作已发表在《NeurIPS 2025会议录》上。
捕捉蛋白质的舞蹈
由于AlphaFold等系统使用AI来预测蛋白质中每个原子的空间位置,它们需要大量的计算能力以及生物学和计算机科学专业知识。LD-FPG使用称为图神经网络(GNN)的方法简化了这个问题。GNN将每个蛋白质视为数学图,其中原子代表"节点",它们之间的键代表"边"。使用这种低级表示,它本质上将蛋白质结构数据压缩为简化的或潜在的映射。
接下来,AI模型研究这个映射并"学习"蛋白质结构和运动的表示。训练后,该模型为全新结构生成潜在数据。最后,这些简化数据被转换回高分辨率蛋白质——包含侧链和动态运动。
在一项实验中,研究团队生成了多巴胺D2受体在活性和非活性状态下的高保真动态表示。该蛋白质检测神经递质多巴胺并控制关键细胞反应,使其成为研究最多的GPCR之一。研究人员已公开发布此数据集,以促进进一步研究。
Sengar说:"除了增强生物学理解外,我们相信我们的工作将有助于改进蛋白质的虚拟筛选流程,目前这些流程涉及大量试错,从而加速药物发现。"
展望未来,该团队旨在简化AI框架以获得更高的准确性和真实性,并使其能够模拟更大的蛋白质。但Vandergheynst强调,高质量数据仍将成功的基础:"许多人认为向AI模型提供海量数据集将自动解决科学问题或取代研究人员。然而,这些数据中的许多都是嘈杂的或评估不佳的。我们需要人类科学家来产生AI所需的干净数据和严格基准,就像我们需要记者来防范虚假信息一样。"
来源:洛桑联邦理工学院
参考文献:Aditya Sengar, Ali Hariri, Daniel Probst, Patrick Barth, Pierre Vandergheynst (2025). 使用图嵌入上的潜在扩散进行全原子蛋白质构象的生成建模。《NeurIPS 38会议录》。
【全文结束】

