解读基因组的"暗物质"Decoding the dark matter of the genome | Drug Discovery News

环球医讯 / AI与医疗健康来源:www.drugdiscoverynews.com荷兰 - 英语2026-03-04 23:36:50 - 阅读时长6分钟 - 2757字
Oncode研究所领导的PERICODE项目开发了PARM模型,通过结合高分辨率实验数据与深度学习技术,首次系统揭示了非编码DNA如何在不同细胞类型中精确控制基因活性。该模型利用大规模并行报告基因分析(MPRA)数据而非传统相关性数据,提供了基因表达的因果关系见解,能够预测突变对启动子活性的影响,为理解癌症基因组中的非编码突变提供了强大工具。这一突破不仅有助于解析转录因子定位的精细调控模式,还使研究人员能在标准学术硬件上进行全基因组计算机模拟诱变,加速药物研发进程,为精准医学和疾病治疗开辟了新途径,标志着人类向解码基因组"暗物质"领域迈出了关键一步。
非编码DNA基因活性调控PARM模型MPRA数据深度学习癌症基因组突变注释启动子活性基因表达精准医学
解读基因组的"暗物质"

解读基因组的"暗物质"

一种新型模型结合高分辨率实验数据与深度学习技术,揭示了非编码DNA序列如何在不同细胞类型中控制基因活性。

DNA的故事远未结束。从1869年瑞士化学家弗里德里希·米舍尔首次发现核酸,到罗莎琳德·富兰克林和莫里斯·威尔金斯通过关键的X射线晶体学研究使沃森和克里克得以推导出双螺旋结构(1953年),科学家们一直在逐步揭示生命的基因密码。2003年人类基因组计划草图和2022年端粒到端粒完成的无间隙人类参考基因组等里程碑事件,已经提供了迄今为止最完整的人类DNA序列。

但测序基因组只是开始。要真正理解DNA如何工作,研究人员必须对其进行注释——识别基因、绘制转录本图谱,并破译控制基因何时、何地以及如何开启或关闭的调控元件。蛋白质编码DNA仅占大多数真核生物基因组的一小部分——在人类中约占1-2%——然而剩余的非编码DNA携带了大量调控指令,控制着不同细胞类型和条件下的基因活性。

为了注释剩余的99%,七家研究团队在Oncode研究所的PERICODE项目中联手。该努力的首个成果发表在《自然》杂志上,即PARM模型(启动子活性调控模型),它利用数百万精确的实验测量数据结合深度学习,解码不同细胞类型中的启动子活性。这一突破可能改变我们对疾病的理解,指导新疗法的设计,并最终揭示长期以来困扰科学家的广阔非编码DNA区域。

PARM模型的起源

PARM(启动子活性调控模型)的开发是PERICODE项目内高度协调努力的成果,PERICODE是Oncode研究所的一个合作倡议,该虚拟研究所连接了荷兰顶尖的癌症研究人员。来自多个机构的七位首席研究员联合起来,汇集了基因组学、计算生物学、肿瘤学和生物化学方面的专业知识。这种跨学科方法对于应对解码非编码基因组的复杂挑战至关重要。

研究期间任职于乌得勒支大学医学中心的首席研究员、该研究的资深作者耶罗恩·德·里德告诉《药物发现新闻》,该项目始于Oncode资助大胆、高风险研究想法的使命。"我们被安排在一个房间里,要求提出宏大的想法,"他回忆道。"我在人工智能方面的专业知识和巴思[范·斯滕塞尔]在基因组学方面的专业知识,加上另外五位首席研究员在临床、遗传学和蛋白质组学方面的专业知识,在解决一个基本问题上形成了非常好的匹配:非编码基因组如何在调控基因表达中发挥作用。"

"我们希望注释癌症基因组中的非编码突变。每个癌症基因组都有数以万计的突变,其中大多数毫无作用,但有些至关重要。我们的目标是确定哪些突变具有实际影响。"

——巴思·范·斯滕塞尔,Oncode研究所

荷兰癌症研究所的首席研究员巴思·范·斯滕塞尔解释说,长期目标从一开始就很明显。为了实现这一目标,研究团队需要一种方法来精确定位哪些突变确实影响了基因表达。

为什么因果关系数据很重要

PARM背后的一个关键设计选择是决定使用大规模并行报告基因分析(MPRA)数据而非大规模表观基因组或转录组图谱来训练模型。尽管这些数据集捕捉了全基因组的调控模式,但它们只提供相关性信息,而非揭示单个DNA序列对基因表达的因果贡献。

MPRA采用了根本不同的方法。数百万个短DNA片段在单一细胞类型中被单独测试,每个片段都与一个报告其调控活性的条形码相连。由于每个序列都是独立测量的,基因表达的变化可以直接归因于特定的DNA元件。这为模型生成了因果关系、高分辨率的数据,该模型随后可以预测未经测试的序列或突变将如何影响启动子活性。

"相关性数据只能到此为止,"德·里德指出。"在这里,我们为模型提供了智能、有针对性的数据,使其能够更快地学习,而不是让它自己去判断什么有用、什么没用。"

通过将这些高分辨率测量数据与深度学习相结合,PARM可以识别哪些序列基序驱动基因活性,这些基序如何相互作用,以及它们在启动子中的位置如何影响调控。该模型还可以预测先前未经测试的序列或突变将影响基因表达,为探索遗传变异的功能后果提供了一个强大工具。

这种方法使PARM与该领域的其他努力区分开来。"该领域似乎专注于构建越来越大的模型,整合越来越多的数据——例如我们工作前一周发布的最新AlphaGenome,"德·里德说。"那是一项出色的努力,将推动该领域发展,但它有点像从太空看地球。我们采取显微镜方法,聚焦于我们想要研究的内容——在这种情况下,是特定细胞类型或特定刺激下的启动子。"

验证该方法

PARM最引人注目的成果之一是它能够改进我们对启动子结构的理解。"该模型现在可以预测,对于每个启动子,哪些转录因子调控它以及它们的基序确切位置,"范·斯滕塞尔说。"它具有难以置信的分辨率,揭示了转录因子定位的模式:有些倾向于非常接近转录起始位点,有些略靠上游,还有少数甚至在下游。我们开始看到生物学模式和规则,这些规则之前部分已知,但从未达到这种详细程度。"

"我们可以对细胞类型中的每个启动子进行全基因组分析,甚至在不同刺激或药物治疗下进行。而且我们可以在标准学术硬件上完成,无需大规模集群。这使我们发现了一些真正有趣的调控模式,而这些模式如果仅通过实验发现可能需要数年时间。"

——耶罗恩·德·里德,Oncode研究所

实际上,PARM使传统方法无法实现的实验成为可能。例如,研究人员可以进行计算机模拟诱变,系统地改变启动子上的一个碱基,并预测每次改变如何影响基因表达。这提供了关于哪些核苷酸关键、转录因子如何协调以及哪些序列可能介导与疾病相关的调控变化的见解。德·里德解释说:"我们可以对细胞类型中的每个启动子进行全基因组分析,甚至在不同刺激或药物治疗下进行。而且我们可以在标准学术硬件上完成,无需大规模集群。这使我们发现了一些真正有趣的调控模式,而这些模式如果仅通过实验发现可能需要数年时间。"

虽然该系统最初是为了注释癌症基因组中的非编码突变而创建的,但它已被证明具有更广泛的用途。通过揭示调控启动子活性的规则,PARM为理解几乎所有细胞类型中的基因调控提供了蓝图。研究人员现在可以探索转录因子如何协调、预测突变或药物治疗的效果,甚至设计合成调控序列——所有这些都不需要在实验室进行详尽的实验。

展望未来,研究团队计划扩展该模型,纳入增强子、表观遗传修饰和染色质结构,朝着更完整的基因组调控代码图谱迈进。通过将高分辨率实验数据与计算建模相结合,PARM可以提供解码整个非编码基因组并理解其在疾病中作用的蓝图——为诊断、治疗和精准医学提供新的机遇。

【全文结束】

猜你喜欢
  • 猫癌症研究揭示人类药物靶点猫癌症研究揭示人类药物靶点
  • 基于CRISPR的平台精准识别白血病患者细胞中的驱动因素基于CRISPR的平台精准识别白血病患者细胞中的驱动因素
  • 突破仪表板局限:构建数据与人工智能骨干以实现精准分析突破仪表板局限:构建数据与人工智能骨干以实现精准分析
  • 细胞分选仪:现代细胞分选技术完整指南细胞分选仪:现代细胞分选技术完整指南
  • 工程化蛋白标记物通过血液读取活体猴脑基因活动工程化蛋白标记物通过血液读取活体猴脑基因活动
  • 生物科技创新强化临床研发管线生物科技创新强化临床研发管线
  • 新研究揭示十一个基因变体影响肠道微生物组新研究揭示十一个基因变体影响肠道微生物组
  • 肠道健康的遗传蓝图肠道健康的遗传蓝图
  • 通过人工智能和个性化医学发现生物标志物通过人工智能和个性化医学发现生物标志物
  • 科学家在血液中发现早期帕金森病信号科学家在血液中发现早期帕金森病信号
热点资讯
全站热点
全站热文