为了推进现代医学,瑞士洛桑联邦理工学院(EPFL)的研究人员正在开发基于人工智能(AI)的诊断工具,其目标是预测患者应接受的最佳治疗方案。
EPFL分子医学人工智能研究组负责人夏洛特·邦内(Charlotte Bunne)正在开发AI算法,以更好地理解代表单个细胞中数百层组织和蛋白质标记的复杂高维数据。EPFL杂志Dimensions采访了夏洛特·邦内,了解她在医学和生物学AI领域的前沿工作。
能否描述一下您的研究重点?
我们正在开发由AI技术支持的临床诊断工具。这包括预测患者应接受的最佳治疗方案,尝试理解患者的疾病状态,并解析我们应该进一步研究的重要生物标志物或潜在药物靶点。重要的是,每个患者的分子谱,以及最终相关的疾病表型都是独一无二的。根据每个个体的分子谱量身定制疗法需要既能捕捉影响治疗反应的细胞和分子因素的测量方法,也需要强大的AI技术,从各种实验产生的大型高维生物医学数据集中稳健地预测这些因素。
虽然我们在视觉和语言方面看到了AI的巨大成就,但生物数据非常不同:测量是间接的、模糊的、多模态的,仅代表一个内在动态系统在不同时间点的快照,而这个系统支配着底层的生物过程。我们不能简单地将为语言开发的AI技术应用于生物学领域,我们需要针对生物数据和系统的复杂性调整架构和学习算法。
尽管我们开发的大型神经网络模型通常在其预测方面是“黑箱”,但我们需要设计它们,至少要理解哪些生物因素对预测有贡献。这种理解对于生物标志物和药物靶点的发现至关重要,因为它突出了与疾病相关联的具体生物机制和途径,揭示了新的治疗机会。
能否谈谈您的背景——您是如何开始从事这一前沿领域的研究的,是什么激发了您的兴趣?
我起步很早!14岁时,我是德国癌症研究中心的一个高中奖学金项目的一员,当时我对合成生物学非常着迷,这是一个结合工程学、计算机科学和生物技术的领域。从那时起,我就相信只有真正跨学科的方法才能帮助我们实现目标。现在,在我的教授职位上,我同时隶属于EPFL的生命科学学院和计算机科学学院。
作为高中生,我们修改了简单的细菌细胞,使其具有新功能,这使我们能够将它们用作产品中的小机器。现在,我感兴趣的是如何改造人类细胞,使它们具有诊断特性,如何预测它们对治疗的反应,或者如何将它们从疾病状态重新编程为健康状态。因此,尽管现在的目标、工具和复杂性与我14岁时的工作完全不同,但核心思想是一致的。
显然,这一研究领域是个性化医学发展的重要驱动力。它在过去几年中发展迅速,尤其是随着AI的进步,它是如何演变的?
作为一名年轻的科研人员,我加入了一场已经进行了一段时间的革命。由于我们现在可以以前所未有的分辨率生成高通量生物数据,该领域发生了惊人的变化。组织大量的生物医学数据集是训练大型神经网络的基础。例如,最近获得诺贝尔化学奖的部分成果——开发了蛋白质结构预测工具AlphaFold的成功,很大程度上归功于蛋白质数据库(Protein Data Bank),这是一个免费向所有人开放的大型蛋白质结构集合。
我们的研究在此基础上更进了一步,试图模拟生物功能和细胞及组织的行为。我们的AI模型基于测量单个细胞中数百个特征的数据,提供了关于细胞内部位置、存在和丰度的单个蛋白质和分子的见解。我们越来越多地将这些丰富数据收集到数据库中,因此进展得益于更多的样本和更高分辨率的人类细胞数据的可用性。
然而,很多时候我们仍然处于低数据环境,缺乏全面的数据集,例如捕捉随时间和物理尺度变化的动态细胞过程的数据集:特别是将分子变化与组织水平行为联系起来的配对数据稀缺,这意味着我们需要在开发AI系统时发挥创造力以克服这些限制。
您提到了数据收集和作为当前工作基础的数据库。显然,隐私问题和如何使用患者数据来训练机器学习算法是关键问题。这如何运作,瑞士在全球范围内处于什么位置?
当然,患者数据需要最高级别的敏感性。此类数据保存在安全的计算环境中,数据保护法规对处理和使用这些数据设定了严格的要求。瑞士的独特之处在于协调努力,开发互操作的数据基础设施,从而在全国范围内实现健康相关数据的访问和交换。这为开发使用日益多样化和代表性患者数据的AI算法奠定了基础。我们的工作受益于近年来在瑞士建立的这些巨大的努力和生态系统。
我们研究的另一个基石是与临床医生和生物学家的密切交流。对我们来说,这意味着我们在紧密合作中开发AI解决方案,并可以根据临床需求调整这些解决方案,使我们构建的诊断工具能够无缝集成到临床常规和流程中。同时,与临床医生和生物学家的密切合作使我们能够在数据不足的领域影响和引导未来数据的生成,或者优先测量提供更深入了解细胞和组织分子组成的模态数据。我们预计,这种AI指导的数据收集将显著提高我们构建的AI模型的能力。
您还参与了一个全球社区,旨在开发AI驱动的虚拟细胞。这些是什么,它们将如何推动当前研究?
有许多方法可以在不同的物理尺度上测量生物学,从分子相互作用到组织结构。我们试图回答的问题是:我们如何整合所有这些测量结果,以获得完整的图景和对细胞行为和功能的全面理解?具体来说,我们可以预测细胞的分子状态在受到药物、环境影响、疾病或治疗等外部扰动时会发生怎样的变化吗?本质上,我们想理解为什么细胞会采取某种状态而不是另一种。
随着测量技术的进步和越来越强大的AI架构的出现,我们现在开始拥有解决这些挑战所需的工具。其中一些AI模型基于单细胞测量数据,而另一些则专注于解码DNA语言或预测蛋白质折叠。愿景是创建一个多模态、多尺度的基础模型——即AI驱动的虚拟细胞,它整合了所有这些努力和测量结果,代表和模拟分子、细胞和组织在各种状态和条件下的行为。AI虚拟细胞作为一个经过训练的通用模拟器,能够在多种场景下模拟细胞系统,包括分化、疾病状态、随机波动和环境影响。
这是一个巨大的、全球性的协作努力。许多研究小组正在研究这个难题的不同组成部分,我们的挑战和机遇在于将这些贡献整合成一个连贯的愿景,从而推动生物医学研究的边界。
如果您有一个水晶球,十年后您认为AI在生物医学领域会达到什么程度?十年后您会在做什么?
生物学中有一些较容易的任务,我们可能已经解决了,并且能够做出准确的预测。像AlphaFold这样的成功故事表明我们可以解决特定的孤立问题,我预计在未来十年会有更多类似的突破。然而,完全掌握生物系统的复杂性——涉及无数分子相互作用,从皮秒到数年的过程——是一个巨大的任务。我相信我们将有许多问题需要解决,许多年里会有许多问题需要回答。
(全文结束)

