全基因组关联研究(GWAS)通过将数千种基因变异与疾病风险联系起来,彻底改变了人类遗传学。然而,对于药物发现而言,这一不断扩大的数据集提出了一个持续的挑战:确定哪些变异是因果性的,它们如何产生影响,以及哪些下游机制最适合治疗干预。这一挑战对于常见疾病尤为突出,因为大多数相关变异位于蛋白质编码基因之外。
尼维尔·桑加纳教授是纽约基因组中心的核心教员,也是纽约大学生物学和神经科学教授。他的研究开发了可扩展的基因组工程和功能基因组学方法,旨在系统地将基因变异与分子机制和治疗靶点联系起来。
"近二十年来,我一直着迷于人类基因组如何影响不同的人类特征和疾病,"他透露。
桑加纳的研究团队不是孤立地研究单个基因,而是开发了基于CRISPR的可扩展方法,在单次实验中靶向数千个基因或基因组区域。这些方法旨在确定哪些基因变异对特定疾病最为重要,并将因果变异与药物相关靶基因联系起来。
可扩展扰动生物学
桑加纳的团队并非专注于单一、假设驱动的实验,而是通过系统扰动大型基因组区域,在规模上研究复杂疾病遗传学。
"我的团队开发了编辑和工程化人类基因组的方法,并解读基因变异的功能效应,"他解释道。"我们工作的一个关键方面是,我们不以纯粹假设驱动的方式追求单一靶点;相反,我们开发可扩展的方法,在单次实验中靶向数千个基因或基因组区域。"
这一策略催生了一系列技术,包括混合CRISPR筛选、OverCITE-seq、CRISPore-seq、STING-seq和MultiPerturb-seq,使研究人员能够在多种疾病背景下对基因变异进行功能评估。
"我们的工作涵盖多个疾病领域,包括肿瘤学、自身免疫、神经发育、神经精神病学、代谢功能障碍和衰老,"他表示。
对于药物发现团队而言,这种疾病覆盖范围使得在一个领域开发的方法可以应用于其他领域,特别是在GWAS背景下,大量关联数据需要能够大规模解析因果关系的实验方法。
解决GWAS的局限性
尽管GWAS功能强大,但它们对因果关系或潜在机制的洞察有限,导致对疾病功能驱动因素的不确定性。
"在GWAS时代,当我们收集数千种基因变异和疾病关联时,一个关键问题是知道哪些变异对特定疾病最为重要,"桑加纳指出。"GWAS在发现基因关联方面非常出色,但正如我们所知,相关性不等于因果关系。"
这一问题因许多变异的基因组位置而加剧。"对于心脏病或糖尿病等常见疾病,大多数GWAS信号位于人类基因组的非编码区域,我们很难预测或解释基因变异的影响,"他继续说道。
STING-seq正是为解决这些局限性而开发的,它将针对GWAS相关变异的混合CRISPR扰动与单细胞测序相结合。
"STING-seq是一种可扩展方法,将针对数千个GWAS变异的CRISPR混合筛选与单细胞测序相结合,快速识别哪些变异最可能是因果性的,对于这些非编码变异,它们可能调控哪些基因。"
通过以疾病无关的方式将变异与下游靶基因联系起来,STING-seq能够在不同适应症中实现系统性的靶点发现。
灵活的靶点选择
在某些情况下,STING-seq揭示了超出单个基因的影响。"这些是STING-seq中真正令人兴奋的发现,"桑加纳承认。"这些案例中,我们不仅能将GWAS变异与单个基因联系起来,还能与整个调控网络联系起来。"
对于药物发现而言,这种网络层面的视角支持更灵活的靶点选择策略。"通过这种方式,我们可以选择最佳药物靶点是调控元件(如转录因子)还是该转录因子的下游靶点,"桑加纳解释道。"在这些情况下,我们能更好地了解细胞中发生的多种分子变化,同时扩大我们的靶点空间。"
虽然STING-seq侧重于识别因果变异及其靶基因,但了解这些基因如何驱动疾病通常需要对基因调控和染色质状态有更深入的了解。
整合RNA和染色质生物学
许多疾病,特别是肿瘤学和神经发育方面的疾病,是由基因表达和染色质状态的失调驱动的。传统功能筛选通常只关注单一读数,限制了它们解析因果机制的能力。
"有许多涉及基因调控和染色质的疾病。在我们的MultiPerturb-seq研究中,我们关注了其中一种——一种源于SWI/SNF染色质重塑失调的罕见儿科脑肿瘤,"桑加纳分享道。
SWI/SNF复合物是一个多蛋白染色质重塑复合物,通过重新定位核小体和控制DNA可及性来调控基因表达。该复合物的破坏是包括儿科脑肿瘤在内的几种癌症的既定驱动因素。
"染色质的变化实际上是因果基因突变的直接效应,因此为我们的基因筛选提供了一个很好的表型,"他表示。
MultiPerturb-seq在单细胞中同时捕获RNA表达和染色质可及性,实现对这些调控层面的综合分析。
"一般来说,通过RNA测序捕获的基因表达变化和染色质状态变化应该是相关的,但它们是不同层面的信息。"
这种双重读数通过识别在多个层面上纠正疾病相关表型的扰动,增强了靶点选择。
"在同一单细胞中捕获两者为我们提供了细胞更丰富的画面——特别是在染色质疾病中。我们可以找到哪些药物靶点可能直接解决疾病相关表型,"桑加纳解释道。
ZNHIT1作为AT/RT的重编程靶点
MultiPerturb-seq研究的一个关键发现是确定了ZNHIT1作为非典型畸胎样横纹肌样瘤(AT/RT)的潜在靶点,这是一种罕见且侵袭性的儿科脑癌。当使用单独的分子读数进行分析时,几种扰动似乎很有前景。
"当仅看基因表达(RNA)或染色质可及性(DNA)时,我们发现了几种潜在的药物靶点,这些靶点使AT/RT肿瘤细胞恢复到更接近正常脑组织的状态,"桑加纳宣称。
然而,当同时考虑两种读数时,ZNHIT1脱颖而出。"但当我们询问哪些扰动导致基因表达和染色质都处于正常状态时,ZNHIT1在我们检查的所有扰动中脱颖而出。"
由此产生的治疗假设基于细胞重编程而非细胞毒性。"我们相信ZNHIT1的抑制可以作为一种重编程疗法,使AT/RT细胞进入更正常的状态,尽管像ZNHIT1这样的核蛋白可能难以成为药物靶点,"他承认道。
除了蛋白质编码靶点外,这些方法还引发了如何系统地探究非编码疾病驱动因素的问题。
利用Cas13靶向非编码转录本
虽然蛋白质仍然是药物靶点的主要类别,但RNA靶向技术的进步使得对RNA种类的系统探究成为可能。桑加纳认为将Cas13应用于非编码RNA的功能分析具有特殊潜力。
"蛋白质作为药物靶点得到了当之无愧的关注,但我们最近关于必需长非编码RNA及其在癌症中潜在作用的工作,表明非编码转录本是一个令人兴奋且未被充分探索的领域。"
正如桑加纳所解释的,主要障碍是缺乏系统性的功能数据。"目前数据太少。我们正试图通过开发更好的试剂(混合文库)和数据集来解决这个问题,以将非编码转录本与癌症和代谢中的关键表型联系起来。"
一旦确立了因果关系,多种治疗方式就变得可行。
"如果我们能够识别在疾病生物学中起因果作用的非编码转录本,那么我们可以使用多种方法,如RNA干扰或反义技术,来调节它们的表达,"他表示。
类似的挑战也适用于非编码调控DNA元件,其中疾病相关变异影响基因控制而非转录本序列。
调控元件作为药物靶点
CRISPR平铺研究表明,许多与疾病相关的基因受多个增强子调控。对于药物发现而言,这使得决定是否直接靶向调控元件或使用它来识别下游基因靶点变得复杂。
"在某些情况下——比如BCL11A的内含子增强子,即胎儿血红蛋白的抑制因子——CRISPR筛选引导我们找到了一种可以治愈镰状细胞贫血的疗法。"然而,桑加纳强调,直接靶向调控元件并不总是合适的。"但我认为情况并非总是如此。对于非编码元件,我认为建立因果联系确实至关重要。"
一个风险是错误归因,即假设疾病相关变异通过最近的基因发挥作用。这个问题由脂肪量和肥胖相关(FTO)位点说明,这是一个最初通过全基因组关联研究与肥胖风险相关的基因组区域。"这里假设FTO中的一个非编码变异影响该基因,而实际上,这个变异是通过一个不同的邻近基因起作用的。"
因此,调控元件通常作为靶点识别的途径,而不是其自身的靶点。"在大多数情况下,我认为我们需要将调控元件与基因联系起来,这些基因将成为药物靶点,"桑加纳反思道。
AI在未来靶点发现中的作用
展望未来,桑加纳认为人工智能(AI)将在扩大基于CRISPR的发现平台影响方面发挥核心作用。
"我对在大型CRISPR扰动数据集和STING-seq等方法的实验数据上训练的AI的融合感到兴奋,"他表示。
实验限制意味着并非所有变异、细胞类型或遗传背景都可以直接测试。"这超出了我们可以实验探测的范围,因此我们需要出色的AI驱动方法来填补这些巨大空白。"
DNA语言模型的进步表明这种整合已经开始。"我们已经看到DNA语言模型在变异效应预测方面的巨大改进,我预计这将继续。"最终,这种融合可能实现虚拟实验,加速早期药物发现。"这将极大地加速许多疾病的药物发现工作,这将是惊人的。我希望并相信,我们将比想象中更快地达到这一目标。"
【全文结束】

