人工智能如何为科学家指明新方向并发现新型药物靶点 - AI与医疗健康

本文是关于我们的科学家如何利用并开发人工智能工具进行生物医学研究的系列报道之一。

脑细胞如何随年龄变化？当人们服用新药时，肝细胞会受到什么影响？吸烟数十年后，肺细胞会发生什么变化？

这些关于细胞行为的基本问题的答案，对于预防疾病和开发新药具有直接应用价值。为了找到答案，科学家通常会设计活细胞实验，调整细胞的DNA或环境，观察会发生什么。

这种实验过程已经彻底改变了我们对人类生物学和医学的理解。但它也缓慢、昂贵，且难以扩展以捕捉生命的真正复杂性。

毕竟，影响细胞行为的基因并非孤立工作，而是通过与我们基因组中数千个其他基因的相互作用来实现。在实验室中绘制这些大型基因网络是一项艰巨或不可能完成的任务，因为要完全理解所有基因如何相互作用，科学家需要测试天文数字般的基因组合。

现在，格莱斯顿研究所研究员克里斯蒂娜·西奥多里斯（Christina Theodoris, MD, PhD）正在利用人工智能（AI）彻底改变科学家们探索人体内部运作关键问题的方式。她正在开发AI模型，可以预测细胞及其基因在不同情况下（如疾病、发育或衰老）的行为。

她首先设计了Geneformer，这是世界上第一个能够预测改变基因活性将如何影响单个细胞的基础模型。该AI模型已经揭示了心脏病的新药物靶点。最近，她推出了另一个名为MaxToki的模型，可以预测全身细胞随年龄变化的情况以及如何减缓这一过程。

"当人们谈论AI的力量时，他们通常将其视为未来的事情——但它已经发生了，"格莱斯顿研究所所长迪帕克·斯里瓦斯塔瓦（Deepak Srivastava, MD）博士说。"在格莱斯顿，我们正在开发强大的AI工具来解决那些至今无法治愈的挑战性疾病。"

"当人们谈论AI的力量时，他们通常将其视为未来的事情——但它已经发生了。"

——迪帕克·斯里瓦斯塔瓦，医学博士

与ChatGPT通过分析数百万本书籍和网站学习人类语言的方式相同，Geneformer和MaxToki通过分析不同人类细胞中数百万条基因活性记录，学习了人类基因的语言。

有了这些新工具，西奥多里斯和她的同事们可以在计算机上进行数十亿次虚拟实验，在踏入实验室之前就缩小最有希望的疾病治疗靶点范围。与实验室中需要数年或数十年相比，这些新实验只需数小时或数天。

"通过利用这些计算机模型更快地识别最有希望的靶点，我们不仅可以加速研究速度，还可以将具有更高成功可能性的疗法推进到临床试验，"西奥多里斯说。

西奥多里斯（图中左侧与实验室的金炳俊交谈）和她的团队正在构建大规模基础模型，这些模型经过如此庞大和多样化的生物数据训练，从而对细胞工作原理有了基本理解。这些AI模型可以应用于回答各种问题。

教AI细胞的语言

大多数人熟悉大型语言模型，如ChatGPT，它们掌握了人类语音和写作的模式。例如，ChatGPT了解到"花生酱和"通常后面跟着"果冻"。因此，当提到花生酱时，它可以预测下一个是果冻，并将"花生酱和卡车"标记为奇怪的组合。

正如ChatGPT从根本上改变了互联网用户搜索信息的方式，西奥多里斯的Geneformer也改变了科学家在工作中使用AI的方式。

Geneformer是一个基础模型，这是一种经过训练以识别大规模数据集中模式的大型AI程序，构建可应用于许多问题的通用知识。就像ChatGPT学会了将花生酱与果冻联系起来一样，Geneformer学会了识别哪些基因总是同时开启。而且，它可以发现可能是疾病警示信号的基因活动模式。

"Geneformer学会了识别哪些基因需要注意，以预测其他基因的水平，因此它可以识别控制整个网络的最重要基因，"西奥多里斯解释说。"当疾病发生问题时，这些是我们可以靶向使细胞恢复健康的基因。"

Geneformer于2021年开发，远早于ChatGPT发布，最初在3000万个基因在单个细胞中上调和下调的示例上进行训练。这些数据来自公共数据库和科学联盟，涵盖了广泛的人类组织、发育阶段和疾病。

现在，它已经在超过1亿个示例上进行了训练，科学家们继续看到模型预测的改进，随着更多数据的可用，这些方法的未来前景看好。

"我们训练了一个大规模模型，以获得对基因在许多情境中如何交互的基本理解，现在我们可以应用它来回答各种问题，"西奥多里斯说。"它作为发现的通用引擎。"

训练数据的规模之大，跨越组织和情境，意味着该模型能够发现数据中的深层关系，并学习基因在许多细胞类型中行为的一般规则。它还消除了研究人员为每个关于基因功能的问题从头开始构建新AI工具的需要。

此外，Geneformer可以对它从未见过的细胞做出预测。这在科学家只能获得有限数据的情况下至关重要，无论是因为他们研究的疾病罕见，还是因为它影响难以取样的组织（如心脏或大脑）。

西奥多里斯和她的团队——包括Alicja Brozek（左）、Abhijay Mahil（中）和Javier Gomez Ortega（右）——正在使用Geneformer在计算机上缩小最有希望的疾病治疗靶点范围，然后才进入实验室。

因此，就像您可以要求ChatGPT用莎士比亚风格写一首关于食物卡车的十四行诗一样，您可以询问Geneformer关于人体深处难以获得的细胞会发生什么。

"如果你想研究这些疾病，你将没有足够的数据来训练新模型，因此你需要一个具有强大知识库的基础模型来回答你的问题，"西奥多里斯说。"使用Geneformer，即使对于过去由于数据有限而停滞不前的疾病，我们终于可以预测治疗靶点。"

从基因预测到潜在治疗

为了测试Geneformer的实用性，西奥多里斯和她的同事们使用AI模型研究了心肌细胞（心脏中的肌肉细胞）。该模型识别出当被破坏时最可能导致细胞问题的基因。

它列出的许多基因已经与心脏病相关联，表明它准确地找出了需要关注的内容。但更重要的是，该模型正确预测这些基因在疾病背景下更为重要——失去它们造成的损害比失去大多数其他基因更大。

Geneformer还预测了一些从未被研究过的基因。当研究人员从实验室的心脏细胞中移除其中一个基因时，细胞不再能够强有力地跳动。

"Geneformer能够预测一个在心肌中从未被描述过的新型关键调节因子，尽管这些细胞已经研究了几十年，这让我们感到兴奋，"西奥多里斯说。

一旦AI模型做出预测，西奥多里斯小组的科学家就在实验室中测试它们。他们发现了一种潜在的新的治疗策略来治疗心肌病，这是一种影响心肌的疾病。

接下来，研究团队要求Geneformer预测哪些基因可以通过药物靶向来恢复心肌病患者（一种心肌疾病）的心脏细胞功能。AI模型聚焦于几个基因。

在实验室的后续研究中，西奥多里斯的团队在心肌细胞中测试了这四个基因中的四个。其中两个导致细胞收缩强度显著改善，第三个显示出帮助细胞再次强有力跳动的迹象——揭示了一种治疗心肌病的新治疗策略。

"该模型能够为我们指明新方向，加速这种进行性疾病候选治疗靶点的发现，"西奥多里斯说。

发现驱动衰老基因的新型模型

Geneformer虽然功能强大，但有一个限制：它只能看到细胞在单一时点的情况。但细胞并非存在于静态快照中，而是动态且不断变化的。处于阿尔茨海默病早期阶段的神经元与疾病晚期的神经元不同。10岁儿童的心脏细胞与70岁老人的心脏细胞不同。

因此，西奥多里斯基于她为Geneformer使用的策略，开发了一个新的时间AI模型MaxToki，该模型加入了时间维度。

首先，她的团队在来自约1.75亿个单细胞的数据上训练了MaxToki——以日本子弹列车命名，其名称是日语中"时间"一词的同音词。然后，他们组装了1亿条细胞随时间变化的轨迹，并使用来自数千名从新生儿到90岁以上健康人的细胞进一步训练该模型。

该模型学会了预测细胞如何随年龄变化。

MaxToki，西奥多里斯实验室发布的最新AI模型，可以检测患病细胞中加速衰老的迹象——并预测哪些功能障碍基因正在驱动这种衰老。

给定一个老化细胞，MaxToki可以推断出哪些基因随时间变化导致其最终状态。给定一个患病细胞，它可以检测加速衰老的迹象。

该模型在暴露于重度吸烟的个体和肺纤维化患者的肺细胞中检测到加速衰老的迹象。同样，在阿尔茨海默病患者的样本中，该模型在脑细胞中检测到衰老加速。有趣的是，在那些大脑显示阿尔茨海默病神经病理学但没有痴呆症状的人的细胞中，没有观察到这种更快的衰老，这种现象被称为阿尔茨海默病弹性。

除了识别受衰老相关疾病影响的细胞中的年龄加速外，MaxToki还可以精确聚焦于这些细胞中基因网络如何出现问题，以及哪些功能障碍基因可能正在驱动加速衰老。

在心肌细胞中，该模型标记了数十个预测会加速或减缓心脏衰老的基因。研究人员选择了五个以前从未与衰老或疾病相关联的基因，并在实验室培养的人类心脏细胞中测试了它们。

"对我来说，MaxToki最令人兴奋的部分是它使我们能够识别对心脏衰老具有真正生物影响的新靶点，"西奥多里斯博士说。

当科学家激活每个预测会加速衰老的基因时，细胞显示出衰老的特征，包括不规则跳动以及涉及炎症和能量使用的基因功能障碍（由细胞的线粒体部分负责）。

研究人员继续在活体生物中验证这些预测。当他们在年轻小鼠中激活相同基因时，他们发现6周内心脏功能下降。该团队现在正在测试在老年小鼠中停用目标基因是否可以帮助它们对衰老的影响更具弹性。

"对我来说，MaxToki最令人兴奋的部分是它使我们能够识别对心脏衰老具有真正生物影响的新基因，"西奥多里斯说。"这可能会加速发现促进对与年龄相关的心血管衰退的弹性的治疗方法。"

一种新型工具

Geneformer和MaxToki与以前的生物学AI工具的不同之处在于它们的广泛适用性。早期的生物学机器学习模型是为单一任务构建的，例如识别显微镜下正在分裂的细胞，或分类组织样本是否包含癌症。每个新问题都意味着构建一个新模型，这意味着需要足够的数据来训练它。

基础模型克服了这个问题。因为Geneformer和MaxToki从一开始就接受了如此庞大和多样的生物数据训练，它们对细胞工作原理有了广泛、可推广的理解。这种基础知识可以在不从头开始的情况下针对新问题。

"不必为每个问题生成新模型的灵活性真正打开了许多可能性，"西奥多里斯说。"我们现在可以将这些模型用于各种问题，并模拟当我们改变基因活性时细胞随时间发生的情况。"

西奥多里斯和她的团队开发的AI模型，如Geneformer和MaxToki，正在免费与世界各地的科学家分享，他们正在提出自己的问题，关于如何控制基因来治疗疾病。

随着Geneformer和MaxToki研究的每种疾病，以及模型观察的每组新的遗传数据，它们在预测生物学和为科学家指明新方向方面变得更好。

在格莱斯顿开发的AI模型现在免费与世界各地的研究团队分享，他们正在提出自己的问题，关于如何控制基因来治疗疾病。

"我们总是很高兴听到新的学术实验室或制药公司使用我们的模型来预测他们感兴趣疾病的治疗靶点，"西奥多里斯说。"我们希望我们的模型被广泛使用，以便它们加速发现使患者受益的新治疗方法。"

"像Geneformer和MaxToki这样的平台旨在克服疾病，并以比我们以前更快的速度做到这一点，"斯里瓦斯塔瓦说。"在格莱斯顿，我们将这些AI模型与我们对疾病的深厚专业知识相结合，我确信我们的方法将带来治愈。"

最终，只要有足够的数据，西奥多里斯相信像Geneformer和MaxToki这样的模型将揭示调控基因网络的复杂规则手册——这是当今生物学家无法理解的。

"这是我未来看到这些模型的最大影响，"她说。"这将极大地提高我们更普遍地理解基因网络的能力，但也提高我们操纵这些系统以设计细胞或设计治疗方法的能力。"

对患者来说，这意味着通往新药的简化路径。那些由于生物学太复杂或细胞难以获取而难以理解的疾病可能最终得到解决。

【全文结束】

快速导航

国内健康

环球医讯

健康科普

医药资讯

家医百科

人工智能如何为科学家指明新方向并发现新型药物靶点How AI Is Pointing Scientists in New Directions and Leading to Novel Drug Targets

教AI细胞的语言

从基因预测到潜在治疗

发现驱动衰老基因的新型模型

一种新型工具