由布罗德研究所埃里克和温迪·施密特中心以及苏黎世联邦理工学院健康科学与技术系的研究人员开发的一种新的人工智能模型,可以通过分析细胞染色质——细胞核内紧密包裹的染色体——的图像来识别被改变的基因,例如可能导致疾病的基因。这种名为Image2Reg的机器学习工具承诺通过预测药物靶点和机制来加速对疾病遗传原因的研究和药物发现。
在最近发表于《细胞系统》的一项研究中,由施密特中心主任卡罗琳·乌勒和苏黎世联邦理工学院的GV·希瓦尚卡尔领导的团队描述了他们的模型如何能够预测其从未遇到过的基因扰动。科学家们表示,通过弥合成像数据与分子生物学之间的差距,Image2Reg为传统基于测序的方法提供了简单、快速且廉价的替代方案,用于绘制细胞对基因或化学变化的反应图谱。
“这是我们在施密特中心所追求的目标的一个典型例子,”施密特中心主任、麻省理工学院电气工程与计算机科学系及数据、系统和社会研究所安德鲁和埃尔纳·维特比教授卡罗琳·乌勒说。“通过大规模结合机器学习与生物学,我们可以从已经收集的数据中揭示新的信息层,并将其用于指导治疗开发。”
“随着我们继续探索染色质成像的潜力,我们发现它可以作为了解细胞调控状态的强大窗口,”苏黎世联邦理工学院全职教授兼保罗谢勒研究所纳米生物学实验室主任GV·希瓦尚卡尔说。
Image2Reg的工作原理
基因网络中的中断可导致许多疾病,如癌症和神经退行性疾病。乌勒和希瓦尚卡尔长期以来一直对染色质结构感兴趣,因为它可以影响这些基因网络的调节并导致疾病。幸运的是,科学家们有一种快速且廉价的方法来研究染色质:使用荧光染料染色染色质并通过显微镜拍摄其图像。
在之前的工作中,乌勒和希瓦尚卡尔已经证明,简单的染色质染色图像结合机器学习算法可以提供大量关于细胞在健康和疾病状态下的状态和命运的信息。尽管机器学习帮助识别了细胞状态,但研究人员尚未能够将它们追溯到特定的基因或调控程序。
为了建立这些联系,研究团队设计了Image2Reg,使其从两种类型的数据中学习:具有已知基因或化学扰动的细胞的染色质图像,以及基因相互作用的分子谱型。首先,该模型使用卷积神经网络学习不同扰动如何改变染色质结构。然后,它使用基于图的模型学习特定细胞类型中基因之间的关系,利用转录组学和蛋白质-蛋白质相互作用数据。最后,第三部分将这两个嵌入对齐,有效地在DNA的物理组织与其生化调控之间进行翻译。
通过成功地将染色质结构与基因调控功能对齐,Image2Reg确认了DNA的物理组织与基因行为之间存在强而有力的预测联系——这一联系有助于解释疾病在分子水平上的发生方式。
这种对齐使Image2Reg能够推断出在它从未见过的新图像中哪些基因被扰动。“通过学习映射细胞图像和基因之间的表示,我们的模型可以推广到未见过的扰动,这就是它的强大之处,”新研究的共同第一作者、施密特中心博士后研究员阿迪蒂亚纳拉扬·拉达克里希南说。
预测药物效果
为了测试Image2Reg的泛化能力,研究团队用每个细胞中有一个基因关闭或上调到高水平的染色质图像对其进行了训练。这些图像数据集(如卡彭特-辛格实验室的Cell Painting数据和来自Broad Institute的Cancer Dependency Map和JUMP-Cell Painting Consortium的努力)是在布罗德研究所生成的,为训练和验证模型提供了丰富的基础。即使从未见过这些化合物,该模型也能以60%的准确率预测这些药物的基因靶点。
“这些结果表明,染色质图像可以揭示化合物如何影响细胞,”共同第一作者、诺华公司博士后研究员兼前施密特中心访问博士生丹尼尔·佩桑说。“我们实际上是在使用成像来理解药物针对哪些基因。”
虽然这项研究专注于单一细胞类型和特定扰动条件,但研究人员表示这种方法具有广泛适用性。随着大规模光学扰动筛选变得越来越普遍,Image2Reg可以适应其他实验环境——使科学家能够研究不同细胞类型、疾病状态或治疗反应中的基因调控变化。
最终,研究团队希望Image2Reg能够成为连接染色质结构与基因功能的基础——帮助研究人员揭示疾病背后的分子机制,并确定哪些基因最适合作为新药或现有药物的靶点。
(全文结束)

