人工智能(AI)作为一套强大的工具,正在创造新的机遇,并帮助克服蛋白质组学及其他组学学科中的难题。借助AI,这些研究领域有望对科学和社会产生深远影响。
悉尼大学儿童医学研究所副教授钟晴博士的研究兴趣涵盖大数据分析、机器学习和计算生物学。他的工作涉及挖掘和管理大规模蛋白质组学和多组学数据集,旨在推动癌症研究,并通过基于大数据的证据驱动计算工具实现预测性、预防性和个性化医疗。
钟晴博士最近接受了《技术网络》的采访,讨论了AI在蛋白质组学和多组学领域的进展、广泛实施的障碍及其对未来生物学研究的愿景。
DIA-NN、DeeProM 和 AlphaFold
“AI在蛋白质组学中的应用近年来取得了显著进展,”钟晴博士说,“特别是数据非依赖采集神经网络(DIA-NN)用于简化DIA分析、DeeProM用于预测癌细胞脆弱性和AlphaFold用于蛋白质结构预测。”
由Ruedi Aebersold教授实验室开创的数据非依赖采集(DIA)被认为是质谱(MS)蛋白质组学的一项突破性技术。与数据依赖采集(DDA)不同,DIA提供了无偏见的分析,具有更大的蛋白质组覆盖范围和更高的可重复性,使其成为发现蛋白质组学的有用方法。然而,DIA生成的数据量巨大,形成了瓶颈。
“DIA-NN利用深度神经网络处理大量DIA数据,简化了肽段鉴定和定量,”钟晴博士解释道。DIA-NN免费使用,这使得它在高通量蛋白质组学中越来越受欢迎。
2022年,研究人员——包括钟晴博士——发布了一张包含949个人类细胞系的泛癌症蛋白质组图谱。团队开发了一个基于深度学习的计算管道,命名为Deep Proteomic Marker(DeeProM)。
“DeeProM实现了蛋白质组数据与药物反应和CRISPR-Cas9基因必需性筛选的全面整合,构建了一个全面的蛋白质特异性生物标志物图谱,这些标志物对于癌细胞生存和生长至关重要,”钟晴博士说。
蛋白质的功能与其结构密切相关,这也是为什么它们在生物学中如此重要的原因之一。然而,蛋白质可以采取的构象数量非常庞大,长期以来科学家们一直在努力开发能够解析蛋白质结构的方法。
这时,谷歌DeepMind开发的AlphaFold出现了。AlphaFold通过从蛋白质数据库中训练大量数据来预测蛋白质结构。
“AlphaFold通过准确预测蛋白质折叠,彻底改变了结构蛋白质组学,提供了关于蛋白质功能和相互作用网络的关键线索,”钟晴博士说。AlphaFold还可以设计全新的蛋白质,应用于开发新型治疗药物、诊断试剂和成像试剂等多种领域。
据估计,来自190个国家的大约200万研究人员正在使用AlphaFold进行研究,涵盖了从加速药物发现到识别与阿尔茨海默病相关的蛋白质结构改变等多个应用领域。该模型对科学和社会的巨大影响使Google DeepMind的Demis Hassabis和John M. Jumper获得了2024年诺贝尔化学奖的一半。
“这些AI驱动的方法共同加速了疾病机制和治疗开发的发现,推动蛋白质组学超越传统实验限制,”钟晴博士说。
AI面临的挑战
尽管AI在蛋白质组学中的变革潜力已经部分实现,但其集成仍面临重大挑战。
数据量、质量和隐私
钟晴博士指出,关于AI在蛋白质组学和多组学研究中的一个常见误解是,已经有足够的数据来推动AI研究以与自然语言处理或计算机视觉领域相同的速度发展。“实际上,虽然生物医学实验生成了大量原始数据,但只有其中一小部分数据经过良好注释、标准化且质量较高,”他说。
“与可用于训练大型语言或视觉模型的数十亿个标记文本或图像不同,生物医学数据往往分散且存储在机构防火墙后面,限制了构建同样强大的AI系统的机会,”钟晴博士继续说道。
为了加速AI驱动的突破,迫切需要协作的数据共享框架、统一的标准和隐私保护技术。
隐私保护技术将是AI在医疗保健研究中广泛应用的关键,因为患者保密性至关重要。在2024年人类蛋白质组组织世界大会上,钟晴博士展示了他最近的预印本研究,旨在解决这一挑战。
钟晴博士和他的同事开发了一种名为ProCanFDL的联邦深度学习(FDL)方法。FDL是一种无需将原始数据发送到模型本身的技术,而是将模型带到数据处。
“我们的系统可以在本地防火墙后面安全地从个体癌症蛋白质组数据中学习。在这个系统中,每个本地计算机在私有数据上训练自己的AI模型,然后仅聚合更新后的本地模型参数,以创建一个更强大的全局模型,”钟晴博士解释道。
本地模型在模拟站点上进行了训练,这些站点包含了来自泛癌症队列和29个队列的数据,代表了8个国家和19,930次DIA-MS运行。“这个全球AI模型在癌症亚型任务中表现出显著的准确性提升,展示了其揭示肿瘤有价值见解并指导潜在治疗的潜力——同时保持数据安全和隐私,”钟晴博士说。
研究人员预测,他们的方法可以促进在全球范围内开发大规模、符合隐私规定的蛋白质组学AI模型,推动数字健康的发展。
组学领域的AI资金
尽管媒体经常报道大规模的AI投资,但钟晴博士认为存在资金差异。
“虽然数十亿美元的资金推动了大型语言模型(LLMs)在科技行业的开发,但在组学研究中获得同等水平的资金支持仍然稀缺,”他说。
结果如何?构建“大型组学模型”的机会减少,无法达到当代LLMs的规模和大小。“有限的资金减缓了基础数据集的创建,阻碍了尖端分析工具的开发,最终限制了该领域的发展,”钟晴博士强调,并呼吁加大对组学AI项目的慈善、政府和工业投资。
需要组学版本的ImageNet
最后,钟晴博士强调了组学研究中数据标准和可重复性的紧迫需求,尤其是在AI模型变得“越来越数据饥渴”的情况下。
“就像ImageNet改变了计算机视觉领域,以及大型标准化语料库如维基百科转储改变了语言模型一样,组学研究也需要一个精心策划、广泛可访问的参考数据集,”钟晴博士说。
所谓的“组学ImageNet”将有助于统一元数据协议、文件格式和质量检查,从而实现可重复、透明的基准测试并促进合作。
“建立这样一个基础可以大幅加速AI驱动的发现,使世界各地的团队更容易贡献并建立在高质量数据集之上,”钟晴博士说。
无限制的未来
在一个没有障碍的未来,钟晴博士相信AI可以将蛋白质组学和多组学转变为“连续的、高分辨率的生物学镜头”,其规模甚至可能超过用于训练LLMs(如ChatGPT)的数据量。
“正如LLMs重塑了我们与技术互动的方式,‘大型组学模型’将无缝整合蛋白质组学、基因组学和其他分子数据,实时揭示复杂的细胞过程和疾病途径,”钟晴博士说。“通过预测蛋白质和其他生物分子在不同条件下的演变、交互和响应,这些模型将推动从新诊断到高度定制疗法的突破。”
在这个世界里,科学家将摆脱繁琐的数据管理问题,以前所未有的速度追求创造性研究项目。“与此同时,公众将受益于更早的疾病检测、更精确的干预措施以及对健康的更深入了解,这些都将塑造公共政策和全球医疗保健,”钟晴博士说。
钟晴博士描绘了一个引人入胜的未来,在这个未来中,AI凭借统一的数据标准和变革性的“大型组学模型”,将彻底改变蛋白质组学和组学研究,为科学、医学和社会带来深远的利益。
鉴于当前快速发展的步伐,我们可能不会等待太久就能看到这一愿景是否能成为现实。
(全文结束)

