摘要: 一种新型机器学习方法实现了连AlphaFold都无法完成的突破——设计天然无序蛋白质(IDPs)。这类形态多变的生物分子占人体所有蛋白质的近30%,在细胞通信、感知和疾病中发挥关键作用,但其持续变化的结构一直让传统人工智能预测模型束手无策。科学家通过自动微分和基于物理的模拟,创建出能精准优化氨基酸序列以实现特定功能的算法。这项突破有望彻底改变合成生物学、药物研发,并深化我们对帕金森病和癌症等疾病的理解。
关键事实:
- 新型AI方法: 利用自动微分基于真实分子物理设计无序蛋白质,而非依赖预测。
- 解锁未知领域: 天然无序蛋白质(IDPs)无法形成固定结构,对细胞信号传导至关重要,且与神经退行性疾病相关。
- 广泛影响: 该发现为医学、传感器和分子工程领域的合成蛋白质设计铺平道路。
来源: 哈佛大学
在合成与结构生物学领域,人工智能的进展已推动计算机精准预测任意氨基酸序列的3D结构,从而爆炸式地设计出具有特定功能的新蛋白质,从抗体到凝血剂皆有应用。然而,人类基因组表达的近30%蛋白质结构,即使对包括诺贝尔奖得主AlphaFold在内的最强大AI工具而言也极具挑战性。
这些被称为天然无序蛋白质的分子永不固定形态,始终处于动态变化中,对交联分子、感知或信号传导等无数生物功能至关重要,但其固有的不稳定性使从头设计极为困难。哈佛大学约翰·A·保尔森工程与应用科学学院(SEAS)和西北大学的研究团队成功展示了一种新型机器学习方法,能够设计出具有定制特性的天然无序蛋白质。这项工作为理解这些神秘生物分子开辟了新途径,并可能为疾病起源和治疗提供全新见解。
该研究发表于《自然·计算科学》,由SEAS研究生瑞安·克鲁格和前NSF-西蒙斯量生物学研究员、现任西北大学助理教授的克里希纳·斯里尼瓦斯共同领导,迈克尔·布伦纳(SEAS应用数学与应用物理学催化剂教授)参与合作。斯里尼瓦斯表示,他研究天然无序蛋白质是因为当前基于AI的方法(如谷歌DeepMind的AlphaFold)无法预测和设计具有特定构象的蛋白质。然而,这类无序蛋白质对生物学诸多基础领域至关重要,且已知其突变与癌症和神经退行性疾病相关。例如α-突触核蛋白长期被认定与帕金森病及其他疾病有关。斯里尼瓦斯指出:“为合成或治疗用途设计IDPs,我们需要开发更优的AI模型,或找到一种能同时获取精准预测与物理原理的方法。”
自动微分算法
论文描述了一种由算法驱动的计算方法,该算法可执行“自动微分”——即时计算变化率——从而理性筛选具备目标行为或特性的蛋白质序列。这项技术虽是深度学习和神经网络训练的常用工具,但布伦纳及其实验室率先认识到其在优化基于物理的分子动力学模拟等潜在应用场景。通过自动微分,研究人员训练计算机识别蛋白质序列的细微变化(甚至单个氨基酸改变)如何影响最终目标特性。他们将该方法比作功能强大的氨基酸序列搜索引擎,能精准匹配执行特定功能的序列——例如形成环状或连接结构,或感知环境变化。“我们不想仅靠大量数据训练机器学习模型来设计蛋白质,”克鲁格表示,“我们希望利用现有且足够精确的模拟,在模拟层面实现蛋白质设计。”该方法采用神经网络训练的传统框架——基于梯度的优化,高效精准地识别新蛋白质序列。其成果是研究人员设计的蛋白质具有“可微分”特性:它们并非AI的最佳猜测预测,而是基于分子动力学模拟的真实物理原理,充分考虑蛋白质在自然界中的动态行为。
资金支持: 本研究获得美国国家科学基金会动态系统人工智能研究所、海军研究办公室、哈佛材料研究科学与工程中心以及哈佛NSF-西蒙斯生物数学与统计分析中心的联邦资助。
核心问题解答:
问:为何AlphaFold等当前AI系统无法预测所有蛋白质结构?
答:因为近30%的人类蛋白质(即天然无序蛋白质)缺乏稳定形态,持续变化且违背固定3D模型。
问:这种新AI方法如何以不同方式预测蛋白质结构?
答:它不预测静态形状,而是通过基于物理的分子模拟和自动微分“教导”AI序列变化如何影响蛋白质行为。
问:为何无序蛋白质如此重要?
答:这些蛋白质驱动关键生物过程,并与帕金森病、癌症和阿尔茨海默病等疾病相关,是未来治疗的核心。
摘要
天然无序蛋白质序列-系综-功能关系的通用设计
近年来,折叠蛋白质的设计已取得显著进展。然而,许多蛋白质及其区域属于天然无序且缺乏稳定折叠,即天然无序蛋白质(IDP)的序列编码了指定其生物功能的空间构象庞大系综。这种构象可塑性与异质性使IDP设计充满挑战。本文提出一种计算框架,通过理性高效地反演近似底层序列-系综关系的分子模拟,实现IDP的从头设计。我们通过设计具有多样化特性和任意序列约束的IDP,展现了该方法的多功能性。这些设计包括目标系综维度的IDP、环状与连接结构、对理化刺激高度敏感的传感器,以及针对具有特定构象偏好的无序底物的结合体。总体而言,我们的方法为生物大分子序列-系综-功能关系的设计提供了通用框架。
【全文结束】

