人工智能助力蛋白质研究突破,推动医学研究进展
肯塔基大学
人工智能(AI)如何能够改变对抗世界上一些最致命疾病的斗争,如癌症和阿尔茨海默病?
在肯塔基大学,一位研究人员正在利用AI的力量寻找可以改变治疗方式、改善结果并给数百万人带来希望的答案。
青少(Qing Shao,博士),肯塔基大学工程学院化学与材料工程系助理教授,获得了来自美国国立卫生研究院(NIH)国家医学图书馆(NLM)超过130万美元的资金,用于开发用于生物医学应用的大型蛋白质语言模型。这是肯塔基大学首次获得NIH关于蛋白质研究的人工智能奖项。
邵青的项目名为“结构功能感知的大型蛋白质语言模型以增强生物医学应用”,旨在开发能够预测蛋白质关键信息的AI模型,这有助于理解疾病并发现新的治疗方法。
具体来说,这些模型有可能通过将蛋白质的生化和生物物理知识整合到语言模型中,并开发有效的方法来训练AI模型,使其基于少量数据进行学习和做出更好的预测,从而更准确地预测蛋白质在体内的行为。
“这项研究教会AI蛋白质的知识,以便它可以设计具有所需功能的蛋白质或更好地预测蛋白质的性质。”邵青表示。
大型蛋白质语言模型已在生物医学研究中发挥了基础作用,但其应用面临两个主要障碍。首先是现有模型缺乏蛋白质结构和功能的关键知识。其次是难以在不失去其一般能力的情况下将这些模型适应特定的生物医学任务。
邵青指出,了解蛋白质的三维形状是一个关键的缺失环节,因为其结构在决定功能方面起着关键作用。
“目前的大型蛋白质语言模型继承了为英语或德语等‘语言’开发的语言模型,”邵青解释道,“它们将蛋白质视为另一种‘语言’,但并未过多考虑蛋白质作为具有三维形状和可移动性的分子。”
邵青及其团队在该项目中提出的解决方案是创建结合蛋白质三维结构和序列的AI模型,以生成更好的蛋白质表示。将使用计算机模拟分子相互作用来创建准确的蛋白质三维模型,然后将其与序列数据结合,以改进对蛋白质工作原理的预测。
“我们的方法始于将蛋白质视为分子,”邵青说,“我们正在开发方法,将这些缺失的知识整合到语言模型中。”
然而,项目成功的关键在于开发将蛋白质的生化和生物物理知识表示并整合到AI模型中的技术。这可以为各种生物医学应用提供宝贵的深度学习工具,对致力于治疗毁灭性疾病的研究人员来说尤为宝贵。
“生物医学研究人员将使用这些模型设计用于治疗癌症和阿尔茨海默病等疾病的蛋白质药物,”邵青表示,“化学工程师将使用该模型设计将生物质转化为有用化学品的酶。”
特别是,邵青的模型在设计抗癌症的蛋白质药物方面具有很大潜力,并可能导致治疗耐药微生物的新方法。“它将帮助研究人员发现导致细菌耐药性和癌症扩散的蛋白质,”邵青说,“它还将帮助研究人员设计蛋白质或肽作为新药,对抗细菌耐药性和癌症。”
本研究由美国国立卫生研究院国家医学图书馆资助,资助编号为R01LM014510。内容仅由作者负责,不一定代表美国国立卫生研究院的官方观点。
(全文结束)

