1978年,英国生物化学家弗雷德里克·桑格的团队发布了噬菌体φX174的基因组序列。这一序列——大约五千个核苷酸“字母”组成的病毒基因组指令手册——是一项了不起的成就,尤其是在当时DNA测序技术仍处于初级阶段的情况下。DNA测序方法的发展使桑格在两年后获得了他的第二个诺贝尔化学奖。
自那时起,基因组学领域取得了飞速进展,在这场指数级革命中,欧洲分子生物学实验室(EMBL)发挥了关键作用,并且这一作用至今仍在扩大。
序列与测序仪
该领域的先驱之一威廉·安索尔于1979年加入EMBL担任研究小组负责人,后来成为功能基因组技术部门负责人。他的团队开发了多种提高DNA测序速度和准确性的方法,以及第一个用于大规模基因组DNA的自动化荧光DNA测序系统。这些方法后来被用于人类基因组计划——这一大型国际项目在2003年发布了首个人类基因组序列。安索尔的团队还参与了酵母、小鼠、蚊子和一种名为拟南芥的植物(常被生物学家用作模式生物)的基因组测序。
伯恩哈德·科尔(RZPD)、乌特·维尔克纳和威廉·安索尔于2002年。照片来源:Maj Britt Hansen/EMBL
DNA测序方法的累积和快速进步导致了21世纪末和21世纪初下一代测序(NGS)方法的出现,这些方法依赖于并行进行大量测序反应,然后通过比对重叠部分将序列拼接在一起。罗氏、Solexa和Illumina等公司进入该领域,推出了商业测序机器,这些机器可以以更大的规模、更高的速度和准确性分析和测序基因组,成本也比旧技术更低。
EMBL是首批利用这一快速技术进步的欧洲研究机构之一。到2001年,它建立了基因组核心设施GeneCore——最初是一个桑格测序和微阵列提供者,由生物化学家弗拉基米尔·贝内斯领导,他至今仍担任该设施负责人。GeneCore是欧洲最早采用新测序方法的设施之一,适应并推广这些方法,为全欧洲的研究人员提供服务。如今,它是一个先进的下一代测序平台,为来自其成员国及其他地区的用户提供端到端支持,帮助他们完成基因组项目。
达芙妮·韦尔特,研究技术员正在监测Illumina测序器在EMBL GeneCore分析NGS文库的性能。照片来源:Stuart Ingham/EMBL
数据处理的平行革命
DNA序列数量的增加也产生了对计算支持的需求,以应对由此产生的数据洪流。1980年,EMBL成立了EMBL核苷酸序列数据图书馆,这是世界上第一个中央存储核苷酸序列数据的机构。在格雷厄姆·卡梅伦的领导下,这后来发展成为EMBL-欧洲生物信息学研究所(EMBL-EBI),成立于1994年,位于英国欣克斯顿的惠康信托基因组校园。
自那时以来,EMBL-EBI开发并提供了系统注释基因组的旗舰项目,如ENSEMBL,为科学家们提供了探索基因组功能的路线图。这一倡议——允许科学家查看和注释基因组,识别基因和非编码区域的位置——诞生于1999年,当时由目前担任EMBL副主任兼EMBL-EBI主任的伊万·伯尼领导。此外,EMBL-EBI在开发科学家存储数据的存储库方面也是先驱,ArrayExpress(用于微阵列数据)就是一个早期的例子。这些举措改变了我们的科学研究方式,因为它们促进了数据集在不同背景下的重复使用,提高了可重复性并加速了发现。更多EMBL在生物信息学和计算生物学领域的成就在此讨论。
解读基因组的生物学
基因组序列、数据库和注释为科学家们提供了解读基因组如何工作的路线图。微阵列和下一代测序使得测量分子及其调控成为可能,其规模是以前无法实现的。这使科学家们能够提出一些基本问题,例如,细胞如何维持、复制和解码其基因组以执行各种功能并迅速适应变化?EMBL的基因组生物学单元试图回答这些问题。自2009年以来,该单元由资深科学家艾琳·富隆领导,使用各种系统级方法来解开调节细胞信息流从DNA、RNA到蛋白质的复杂过程,整合尖端实验和计算方法,并跨尺度工作。
基因组生物学的一个中心挑战是了解基因组的哪些部分转录成具有各种细胞功能的mRNA。安索尔的开创性工作首次使研究人员能够使用微阵列芯片检测mRNA转录本——这是一种可以帮助科学家同时测量样本中所有基因表达水平的小型设备。这项突破性技术后来使拉尔斯·斯坦梅茨的团队证明,真核生物基因组的大部分,甚至是在基因之外的部分,也会转录成RNA。随后,史蒂夫·科恩的团队是最早识别特定类型的非编码转录本——microRNAs——在调节其他基因表达中的功能的团队之一。
陈雅雯和史蒂夫·科恩于2007年。照片来源:Udo Ringeisen/EMBL摄影室
基因表达受多种分子机制相互作用的控制,其中许多机制是在EMBL鉴定的。在细胞内,DNA缠绕在称为组蛋白的蛋白质上,形成一个称为染色质的结构。染色质的形状和结构有助于调节关键蛋白质(称为转录激活因子)访问目标基因的难易程度,从而调节基因表达。EMBL研究人员在鉴定和理解调节染色质结构的分子机器的作用模式方面做出了几项关键贡献。例如,阿西法·阿克塔尔和彼得·贝克尔是首次发现并表征一种调节雄性和雌性果蝇之间基因表达差异的染色质修饰因子的人。
诺贝尔奖得主和EMBL校友克里斯蒂安·纽斯莱因-沃尔哈德和埃里克·威斯乔斯(左、右)是2014年EMBL 40周年活动的荣誉嘉宾。照片来源:EMBL
尤尔格·米勒的团队发现了PCR1的酶功能,PCR1是控制有机体发育基因的关键调节因子之一。这些包括Hox基因簇,其在调节果蝇发育中的作用是由EMBL的克里斯蒂安·纽斯莱因-沃尔哈德和埃里克·威斯乔斯发现的,后来被EMBL校友丹尼斯·杜布勒证明对哺乳动物发育也至关重要。
EMBL研究人员还在“顺式调控元件”的研究中处于领先地位——这些DNA开关负责开启和关闭基因。这是艾琳·富隆实验室过去二十年来的研究重点,研究范围从开发绘制全基因组转录因子结合的方法,到预测其活性,并通过推动单细胞基因组学的边界,揭示了整个生物体水平上的顺式调控元件的第一张图谱。
此外,EMBL的研究高度跨学科,虽然基因组功能已通过测序技术进行剖析,但基因组调控过程也从分子角度通过结构方法进行了解析,多个研究小组提供了关于参与基因组功能的酶的结构-功能关系的关键见解,例如克里斯托夫·穆勒团队对RNA聚合酶或染色质重塑复合物的研究。
EMBL还在开发、验证和分发分析基因表达的计算工具方面处于领先地位。例如,沃尔夫冈·胡贝尔团队创建的软件包DESeq(及其继任者DESeq2)是用于识别基因或其调节因子表达变化的最广泛使用的软件包之一。
从DNA代码到人类健康、生物多样性和更多
基因组研究为改善人类健康和解决全球挑战开辟了令人兴奋的可能性。其中一个进展领域是微生物组的研究——生活在给定环境中的所有微生物。通过对代表性环境样本中的DNA进行快速测序,可以为我们提供该环境中所有微生物的快照,生成一个“宏基因组”。这种方法已被EMBL研究人员成功用于研究土壤和我们肠道中的微生物组,以及抗生素等因素对其的影响。EMBL海德堡的博克小组是宏基因组学和微生物组测序的先驱,开发了许多今天在该领域广泛使用的工具。EMBL多个研究小组(提帕斯、帕蒂尔、博克)的研究还表明,我们的肠道微生物组影响药物的有效性和某些疾病的风险。
全基因组泛癌分析项目也值得一提。该项目涉及来自37个国家的1300多名科学家和临床医生,分析了38种不同类型肿瘤的2600多个基因组,创建了一个巨大的原发性癌症基因组资源。该项目由扬·科尔贝尔共同领导,为世界各地的许多研究小组提供了关于癌症早期演化、肿瘤中的突变过程以及不同肿瘤进展阶段活跃基因的新见解的起点。
基因组数据库和研究对于基因组医学的进步至关重要——使用基于基因组的技术(如DNA测序)支持医疗保健。EMBL,特别是EMBL-EBI,通过与基因组英格兰和北欧EMBL伙伴关系等倡议的合作,在这方面做出了重要贡献。EMBL目前正在支持欧洲各地的基因组医学计划,包括英国、丹麦、芬兰、爱沙尼亚和挪威。欧洲基因组数据基础设施(GDI)项目将许多这些项目联系在一起。EMBL还通过组织基因组学领域的会议、会议、研讨会和课程,为科学界赋权,重点是实验工作和数据分析。
展望未来50年的基因组学,推测该领域的未来是很有趣的。在单细胞组学领域已经取得了新的进展,可以在单细胞水平上研究DNA、RNA及其转录调控,甚至可以从完整的组织和器官中研究。这些研究提供了在任何给定条件下细胞状态的新见解,并将其与其他相同器官或生物体中的细胞类型进行比较。这些技术揭示了发育和疾病过程中的变化,目前正被EMBL科学家用于研究遗传和环境变异如何影响胚胎发育,以及了解癌症进展过程中的变化。癌症是由DNA中的多种变化引起的,EMBL科学家目前与海德堡大学的肿瘤学家合作,确定哪些DNA变化最具破坏性,并了解它们的功能。
大规模的基因组扰动也使研究人员拥有比以往更强大的工具来精确详细了解基因组功能。此外,合成和编辑整个基因组的方法的出现,至少对于较小的生物体来说,将彻底改变我们理解和修改基因组功能的能力。空间组学的兴起——将成像与基因组学、转录组学和蛋白质组学技术相结合——以及使用基于AI的系统分析基因组代码和预测基因位置,可能很快会提供对基因组功能的整体视图。最后,我们看到从环境样本中处理基因组的革命,例如在穿越欧洲海岸线(TREC)探险期间收集的样本,不仅有助于更好地理解全球生物多样性,还提供了关于我们不断变化的气候和人类活动影响的更清晰图景。
了解更多有关EMBL在生命科学研究和服务方面的贡献,请参阅我们的50周年纪念出版物。
(全文结束)

