基因组解析宏基因组学:微生物组医学的变革者Genome-resolved metagenomics: a game changer for microbiome medicine | Experimental & Molecular Medicine

环球医讯 / 硒与微生态来源:www.nature.com韩国 - 英语2026-02-01 03:41:15 - 阅读时长28分钟 - 13936字
本文综述了基因组解析宏基因组学在人类微生物组研究中的应用进展,详细阐述了宏基因组组装基因组(MAGs)的构建方法、功能注释、泛基因组扩展及其在代谢建模中的应用,揭示了该技术如何推动微生物组医学的发展。研究表明,全宏基因组测序数据量快速增长,通过分析微生物基因组变异与宿主表型的关联,基因组解析方法正引领我们进入微生物组医学新时代,有望加速开发基于微生物组的新型生物标志物和治疗方法,为精准医疗提供重要支持,但同时也面临样本地理偏差、低生物量样本分析等挑战。
基因组解析宏基因组学微生物组医学人类微生物组MAGs肠道微生物组功能注释泛基因组代谢建模抗生素耐药基因抗菌肽疾病预防精准微生物组医学生物标志物宿主生理
基因组解析宏基因组学:微生物组医学的变革者

摘要

近年来,大量证据表明共生细菌与人类疾病相关,这催生了生物医学研究的一个新领域:微生物组医学。这一新兴领域旨在理解和利用人类微生物群及其衍生分子进行疾病预防和治疗。尽管这一生态系统具有复杂且层次化的组织结构,但多年来大多数研究都依赖于16S扩增子测序,这是一种源自细菌系统发育和分类学的传统方法。虽然先进的测序技术已经能够经济高效地分析整个微生物群,但将相对较短的核苷酸信息转化为微生物组的功能和分类组织一直面临挑战,直到最近。在过去十年中,旨在直接从全宏基因组测序数据重建微生物基因组的基因组解析宏基因组学已取得重大进展,并继续揭示各种与人类相关的微生物群落的奥秘。全宏基因组测序数据量以及公共数据库中新型宏基因组组装基因组和蛋白质序列的编目正在快速增长。本综述概述了基因组解析宏基因组学研究人类微生物组的能力和方法,重点研究人类肠道的原核微生物群。正如解码人类基因组及其变异标志着基因组医学时代的开始,揭示共生微生物的基因组及其序列变异正引领我们进入微生物组医学时代。基因组解析宏基因组学是这一转变中的关键工具,可以加速我们实现这些科学和医学里程碑的进程。

引言

人体是众多共生微生物细胞的家园,这些细胞数量超过宿主自身细胞,并对人类生理产生重大影响。随着关于共生微生物在人类疾病中作用的证据不断积累,微生物组医学已成为生物医学研究的一个新领域。该领域旨在利用人类微生物群及其衍生分子来预防和治疗疾病。实现这一目标需要全面了解人类微生物组的分类和功能组织。

历史上,微生物群落研究一直是微生物生态学领域的一部分,最初主要关注环境微生物。然而,人体内发现的庞大微生物群落扩展了该领域的范围。多年来,人类微生物组研究一直采用基于细菌系统发育和分类学的方法,特别是16S rRNA基因序列分析¹,这种方法足以揭示患病微生物组与其健康对应物之间的分类组成差异。然而,16S rRNA序列有限的分类分辨率²及其无法进行功能分析的固有缺陷,阻碍了进一步的进展,包括识别直接影响宿主生理的微生物组功能元素。这种情况类似于人类基因组可获得之前的人类遗传学研究。缺乏全面的人类基因组图谱意味着疾病基因的搜索基于稀疏的基因组地标,导致仅能识别与疾病相关的宽染色体区域。这种方法通常需要后续多年研究才能精确定位负责的基因。人类基因组的解码和单核苷酸变异的编目加速了与疾病相关基因和遗传变异的发现,从而 ushered in 基因组医学时代³。

在本综述中,我们主张微生物组医学中类似的转变。解码所有共生微生物物种的完整基因组并编目其遗传成分,将加速开发源自人类微生物组的新生物标志物和治疗方法。多年来,特别是对于尚未培养的物种,基因组组装在技术上一直具有挑战性。然而,基因组解析宏基因组学的最新进展已带来了研究的重大变化。已开发出多种计算方法,用于从宏基因组鸟枪测序数据中进行从头基因组组装,导致以宏基因组组装基因组(MAGs)形式的草图基因组迅速积累。本综述讨论了MAG构建的计算方法及其对人类微生物组研究的影响,特别关注肠道微生物组研究。此外,虽然相同的研究框架可应用于研究体内的各种微生物群落,但本综述主要针对原核共生微生物的研究,同时注意到MAG重建也可用于共生真菌和病毒。

16S rRNA基因测序的固有限制

16S rRNA基因测序因其成本效益和直接的生物信息学解释而成为微生物群落分类分析的流行方法,使其广泛可及。然而,这种方法有几个与其分析目标16S rRNA序列相关的固有限制。

首先,16S rRNA序列的变化通常不允许在物种水平上进行分类分类。最近的研究表明,即使使用长读测序分析整个16S区域,也可能不足以进行物种水平的分类区分⁴。此外,同一物种微生物之间的亚种水平差异可能对宿主生理产生重大影响,但这些细微差别通常在微生物组的分类分析中被忽视。其次,16S rRNA序列不提供有关微生物功能能力的信息。虽然诸如PICRUSt⁵等工具允许基于16S rRNA序列预测代谢途径,但结果仅是基于与给定16S rRNA序列相关联的有限代表性基因组的推断。第三,16S rRNA序列是原核生物特有的,使得使用此序列信息无法检测非细菌共生体,如真菌、病毒和原生生物。第四也是最关键的是,研究被认为是"微生物暗物质"的新物种具有挑战性,因为16S rRNA序列的解释严重依赖于包含已知细菌物种的数据库。这种依赖性可能会阻碍对以前未表征的微生物实体的发现和理解。

全宏基因组测序(WMS)的微生物组分析:新范式

人类微生物组计划(HMP)⁶与人类基因组计划不同,它没有从测序数据中产生参考基因组。这是由于从源自各种细菌来源的混合序列读段中组装单个细菌基因组的复杂性。当时,计算算法不够先进,无法有效分离和准确组装这些基因组。尽管如此,HMP对于将微生物组研究转向WMS至关重要,WMS涉及对样本中的所有遗传物质进行测序,以提供对微生物组的更全面理解。

HMP通过向公众发布来自健康人类微生物组的WMS数据集,为人类微生物组研究做出了重大贡献。这些数据集包括来自肠道的541个样本、来自阴道微生物组的215个样本、来自口腔微生物组的1090个样本以及来自皮肤微生物组的56个样本,突显了该项目的广泛范围及其对理解人类健康的影響。这一发布导致了许多用于分析的生物信息学工具的开发。HMP的第二阶段,称为HMP2或iHMP,旨在提供对宿主-微生物组相互作用的更全面理解⁷。为HMP2生成了广泛的多组学数据,涵盖宿主和微生物组相互作用。这些包括与人类肠道和阴道微生物组在妊娠和早产、炎症性肠病以及前驱糖尿病相关的WMS数据。因此,公共数据库中增加了来自额外2000个肠道样本和930个阴道样本的WMS数据,从而进一步推进了人类微生物组研究的可用资源。得益于这一大规模联盟项目和众多其他研究,人类肠道微生物组的公共WMS数据集数量迅速增长,到2023年已超过110,000个样本(图1)。然而,一个显著的问题是数据中存在显著的地理偏差。大多数公共WMS数据来自美国、中国和一些欧洲国家等少数国家,导致亚洲和非洲大多数国家的肠道微生物组数据代表性不足。这一差距至关重要,因为肠道微生物群组成受饮食和生活方式的强烈影响⁸,⁹,¹⁰。因此,当前的人类肠道微生物组数据景观缺乏全面性。在未来的样本收集和分析中包括代表性不足的人群,对于更准确地理解全球人类肠道微生物组至关重要。

图1:提交到NCBI序列读段档案(SRA)的人类肠道全宏基因组测序(WMS)样本按国家和年份的分布。

柱状图显示了每年提交到NCBI SRA的人类肠道WMS样本的累计数量。饼图插图分解了不同国家对总样本提交的贡献;截至最后记录的年份,美国贡献了大部分,其次是中國、瑞典和其他国家。贡献少于2%的国家归入"其他"。此图突显了公共数据库中人类肠道WMS数据的增长率和地理偏差。

基因组解析宏基因组学:实现人类微生物组的多方面研究

基因组解析宏基因组学是微生物组研究中的一种变革性方法,深入研究混合微生物群落的DNA,直接从宏基因组数据组装和分析单个基因组。与传统的16S rRNA测序相比,这种方法标志着重大进步,为理解人类微生物组提供了更丰富的深度和前所未有的见解(图2)。

图2:微生物组分析中16S rRNA测序和全宏基因组测序(WMS)的比较。

a 16S rRNA测序分析可用于进行分类分析和基于分类谱的功能推断。b 通过WMS进行微生物组分析的各种途径,包括无组装和基于组装的方法。该图强调了与16S rRNA测序相比,WMS在理解微生物组方面提供的全面见解。

在该方法的核心,基因组解析宏基因组学允许组装涵盖各种微生物(包括细菌、病毒和真菌)的新基因组。包括这些新物种基因组扩展了系统发育树,从而使以前无法检测的物种成为焦点¹¹。此外,物种水平基因组数据的日益可用促进了对物种内变异的深入调查¹²。这一进展为开发全面的泛基因组¹³奠定了基础,这将提供对物种内遗传多样性的更详细了解。研究人员现在有望发现许多新的编码序列,这可能导致识别新的宏基因组蛋白质家族¹⁴,¹⁵。细菌物种内的基因组比较有助于追踪共生细菌的个体内和个体间传播¹⁶,¹⁷,而基于基因组的分析则通过基因突变和水平基因转移为了解微生物组进化提供了窗口¹⁸。物种内的遗传多样性反映了微生物组在特定宿主环境中的适应旅程¹⁹,从而揭示了微生物基因组的单核苷酸变异(SNVs)或结构变异(SVs)与宿主表型之间的潜在统计关联²⁰,²¹。最后,MAGs使我们能够对未培养的细菌物种进行基因组规模的代谢建模²²,这些细菌代表了人类肠道微生物组的相当大一部分,最终允许对个体微生物组进行代谢建模²³。

从宏基因组测序读段组装单个微生物基因组

从源自各种微生物的混合短读段生成MAGs是基因组解析宏基因组学的第一步。MAGs的构建包括组装和分箱两个步骤(图3)。

图3:从宏基因组样本重建宏基因组组装基因组(MAG)的工作流程。

此流程图概述了从粪便样本生成MAGs的过程。该程序从收集粪便样本开始,然后进行鸟枪宏基因组测序以获取片段化DNA。DNA片段被组装成重叠群。然后基于核苷酸组成和覆盖深度将这些重叠群聚类,通过分箱过程形成MAGs。最后一步是对组装基因组进行质量评估,评估完整性和检查污染。

在初始组装步骤中,短读段被拼接成更长的重叠群,类似于拼图,其中这些短读段的重叠区域充当连接元素。通常,有两种组装模型:重叠-布局-一致性(OLC)模型和De Bruijn图。在OLC模型中,每个读段在图中表示为一个节点,读段之间的重叠表示为边。然而,随着测序深度的增加,这种方法可能导致大型复杂图。相比之下,De Bruijn图模型通过将读段分成k-mers²⁴来提高可扩展性。诸如metaSPAdes²⁵和MEGAHIT²⁶等短读段组装器采用此策略,将短读段分成k-mer片段,然后使用De Bruijn图将这些片段组装成扩展的重叠群²⁷。组装过程可以通过两种方式进行:单组装,即对每个样本独立进行;和共组装,即在合并多个样本后进行²⁸,²⁹。每种方法都有明显的优缺点(补充表1a)。与环境样本(如相互连接的海洋和土壤)不同,人类肠道微生物组代表了个体之间不同的环境。因此,保留亚种特异性变异(如SNVs)至关重要。亚种特异性的保留可以通过De Bruijn图中的不同路径实现。然而,此过程导致生成许多碎片化重叠群³⁰,³¹。因此,我们建议采用单组装方法。如果目标是捕获低丰度分类群,则建议增加测序深度而非共组装³²。

接下来是分箱步骤,源自同一基因组的重叠群被分组为桶(bin),每个桶对应一个特定基因组。分箱涉及基于序列组成和覆盖深度对相似重叠群进行聚类³³,³⁴,³⁵,³⁶。序列组成指核苷酸特征,包括k-mers。鉴于物种通过其基因组中k-mers和GC比率的恒定性来区分³⁷,³⁸,³⁹,这些特征可用于将重叠群聚类为基因组桶。四核苷酸频率(TNF)是最常用的指标,与其他k-mer大小相比表现更佳³⁶。此外,源自同一基因组的重叠群在样本中共丰度⁴⁰,使得具有相似覆盖深度的重叠群更可能属于同一基因组。覆盖深度可以从单个样本(单覆盖分箱)和样本组(多覆盖分箱)计算⁴¹。这两种方法各有优缺点(补充表1b)。基于单个样本内共丰度的单覆盖分箱可能会无意中将受污染的重叠群引入基因组桶,影响下游分析。为解决此问题,我们建议采用多覆盖分箱,利用多个样本中的共丰度。实施此方法需要仔细考虑在多覆盖分箱中要一起分析的样本,以确保准确性并降低污染风险。

此外,在将源自同一物种的重叠群聚类时,各种工具在分箱中使用的特征和算法有所不同(补充表1c)³³,³⁴,³⁵,⁴²,⁴³,⁴⁴,⁴⁵,⁴⁶,⁴⁷。鉴于没有单一工具在所有情况下都表现最佳⁴⁸,⁴⁹,使用几种分箱工具并通过集成方法合并其结果很常见。合并步骤(称为桶优化)将多个分箱工具的结果组合成具有最高质量重叠群组合的单个桶⁵⁰。用于此过程的工具总结在补充表1d中⁵¹,⁵²,⁵³。

由于生成的基因组序列可用于各种下游分析,我们需要测量最终桶的质量,即单个基因组序列。虽然存在诸如N50和重叠群数量等定量质量指标,但有两个绝对指标用于测量基因组质量,这些指标普遍定义了MAG质量:完整性和污染⁵⁴,⁵⁵。基因组序列的可靠性与其完整性成正比,与污染水平成反比。根据广泛认可的宏基因组组装基因组(MIMAG)最低信息标准⁵⁶,完整性超过50%且污染少于10%的基因组被归类为中等质量草图基因组。相比之下,完整性超过90%且污染少于5%的基因组被认为是近乎完整的草图基因组。完整性指组装基因组序列覆盖实际基因组的程度。基因组序列的完整性低可能导致在推断其功能能力或进行代谢建模时低估物种的功能能力⁵⁷。基因组序列中的污染表示存在不属于正在测序的基因组的外来片段⁵⁸。基因组序列中的污染来自各种来源,包括在分箱过程中由于相似的序列组成而混合密切相关的基因组。此外,分类学上相距较远的基因组可能因各种原因而受到污染。有各种计算工具可用于检测基因组中的污染(补充表1e)⁵⁴,⁵⁹。由于工具的优势各不相同,建议使用多种工具进行综合质量控制⁶⁰,⁶¹。污染的另一个常见来源是宿主(如微生物组研究中的人类DNA)或真菌和病毒序列的包含。特别是对于涉及真核生物或病毒序列的第三种污染类型,需要格外谨慎。

通过MAGs扩展系统发育及其分类

生物信息学的最新进展和宏基因组测序成本的降低大大促进了大规模构建细菌MAGs,这需要准确的分类。传统上,细菌基因组的分类依赖于国家生物技术信息中心(NCBI)分类法,这是一种基于原核生物命名国际法规的系统⁶²。然而,这种基于共识的命名系统往往难以跟上新物种的快速识别和分类。为解决这些挑战,一种自动和客观的方法将新细菌和古菌基因组整合到参考系统发育树中进行分类。基因组分类数据库(GTDB)⁶³是一个参考细菌分类数据库,为这一问题提供了当代解决方案。与通常使用16S rRNA区域进行分类的NCBI分类法不同,GTDB基于120个特定的单拷贝标记蛋白用于细菌基因组。GTDB还努力纠正传统分类中的常见问题,例如去除多系群以使系统发育与分类一致⁶⁴,以及标准化不等的分类等级⁶⁵。GTDB工具包(GTDB-Tk)⁶⁶已开发出来,通过将新基因组放置在GTDB框架内,促进新基因组的准确分类。这种系统发育参考允许基于基因组序列的新物种分类注释,通过确定其系统发育位置。尽管目前GTDB中的大多数物种都带有非标准占位符名称,但该系统允许基于基因组序列对新物种进行分类注释,即使对于新物种,也可以通过推断其在系统发育中的位置。

许多MAGs揭示了新的微生物物种,从而显著扩展了当前的系统发育树。这一进展在人类肠道微生物组研究中尤为明显,其中只有有限数量的物种被分离,留下绝大多数未培养⁶⁷。例如,迄今为止,在人类参考肠道微生物组(HRGM)中编目的5414种微生物物种中,只有不到16.5%拥有至少一个来自分离株的基因组(分离株基因组),大多数物种仅由MAGs定义(图4)。值得注意的是,几个大型细菌分类群尚未有任何分离株基因组。随着通过MAGs组装未培养物种基因组变得越来越容易,代表原核生物生命的系统发育树有望迅速扩展⁶³,⁶⁸。

图4:拥有分离株基因组和宏基因组组装基因组(MAGs)的物种或属与仅拥有MAGs的物种或属的比较。

a 系统发育树代表HRGM中编目的5414种微生物物种,其中893种(16.5%)在外环上标记为至少拥有一个分离株基因组。b 比较仅由分离株基因组、仅由MAGs以及同时拥有分离株基因组和MAGs组成的属数量的柱状图。"非单种属"列显示排除了由单个物种代表的属的数字。此可视化强调了MAGs在代表微生物多样性方面的补充作用,特别是在非单种属中。

MAGs的功能注释:理解新基因组

编译基因组的部件列表是理解细菌物种的基本步骤,涉及预测MAGs中的开放阅读框(ORFs)及其功能注释。最近的一项基准研究评估了各种基因预测工具,发现没有普遍优越的工具⁶⁹。然而,Prodigal⁷⁰作为该领域中最受欢迎的工具,一贯在不同场景中表现出稳健的性能。Prodigal通过无监督学习识别序列中的关键特征,如核糖体结合位点(RBS)基序、起始密码子使用和编码统计。这种方法允许对非模式细菌生物进行有效的基因预测。一旦预测了ORFs,它们就会接受自动功能注释,其中每个基因基于其与已知蛋白质的同源性被分配功能术语。用于此类同源功能注释的广泛使用的数据库是eggNOG⁷¹,其中包含数百万个直系同源群(OGs)。与其他注释工具相比,eggNOG-mapper⁷²特别值得注意,因为它具有高准确性,可以通过有效区分旁系同源物(具有潜在不同功能的相似序列)来实现⁷³。提供同源功能注释的其他工具包括InterProScan⁷⁴、Prokka⁷⁵、Bakta⁷⁶、DRAM⁷⁷和MicrobeAnnotator⁷⁸。功能注释工具利用各种数据库提供注释,主要包括KEGG(途径/直系同源)⁷⁹、基因本体论⁸⁰、Pfam⁸¹和碳水化合物活性酶数据库(CAZy)注释⁸²。这些数据库因其在生物研究各个领域的全面资源而被广泛使用。

基因组挖掘是识别原核基因组中具有特殊功能的基因的关键方法,特别是在抗生素耐药性的背景下,由于抗生素的广泛使用,这对人类健康日益成为关注的问题。这种过度使用导致了抗生素耐药病原体的出现⁸³。抗生素耐药基因(ARGs)可能起源于共生细菌,当它们通过水平基因转移(HGT)转移到病原体时,会成为重大风险⁸⁴,⁸⁵,⁸⁶。最近对人类肠道微生物组的研究表明,抗生素消耗与微生物组中ARGs的流行之间存在关联⁸⁷,⁸⁸,⁸⁹。ARGs的检测通常涉及将序列与已知ARG参考数据库对齐,使用RGI⁹⁰或ABRicate⁹¹等工具进行基于同源的识别。对于识别新型ARGs,也采用诸如隐藏马尔可夫模型(HMM)方法(由ResFam⁹²或fARGene⁹³例示)和深度学习技术(如deepARG⁹⁴或PLM-ARG⁹⁵)等方法。这些方法依赖于已知ARG序列的数据库进行准确识别。整合多个数据库,包括CARD⁹⁰、ResFinderFG⁹⁶和MEGARes⁹⁷,以增强ARG检测的全面性和准确性很常见。

抗菌肽(AMPs)是短肽,通常由少于100个氨基酸组成⁹⁸,可抑制包括细菌、真菌、寄生虫和病毒在内的各种微生物的生长⁹⁹。由于其抗炎和免疫调节特性,这些肽正在被评估为潜在的抗生素替代品¹⁰⁰。鉴于人类肠道微生物组的多样性,预计它将是新型AMPs的丰富来源¹⁰¹。研究 increasingly focused on 来自人类肠道微生物组的AMPs,因为它们可能对人类细胞无毒¹⁰²。基于机器学习的方法在识别AMPs方面已被证明比基于同源的方法更有效,这归因于它们的短长度¹⁰³,¹⁰⁴。此外,最近的努力一直致力于使用深度学习技术来发现人类肠道微生物组内的新型AMP候选物¹⁰²,¹⁰⁴,¹⁰⁵。

通过MAGs扩展泛基因组:揭示单个微生物物种的全部功能潜力

单个物种的MAGs集合提供了对其功能潜力的洞察,通常概念化为泛基因组,包括物种内的所有基因,包括由大多数菌株共有的基因组成的核心基因组,以及仅在部分菌株中发现的基因组成的附属基因组¹⁰⁶,¹⁰⁷。MAGs的纳入导致许多物种的泛基因组大小显著扩大,超过了仅从分离株基因组构建的泛基因组中观察到的结果。这一现象在HRGM中Akkermansia muciniphila的泛基因组分析中得到了例证(图5)。附属基因组对亚种内的功能多样性¹⁰⁸至关重要,对不同宿主的适应起着关键作用,并可能与致病特征相关¹⁰⁹,¹¹⁰。因此,开发区分核心和附属基因组的全面泛基因组对于更深入地了解不同宿主人群中微生物物种内的多样性至关重要。

图5:通过分离株和宏基因组组装基因组(MAGs)扩展Akkermansia muciniphila泛基因组。

该图显示了Akkermansia muciniphila泛基因组大小(基因计数)随着更多基因组测序的增长。实线表示仅分离株基因组的稀释曲线,显示泛基因组大小的初始快速增长,随着基因组数量的增加开始趋于平稳。虚线表示同时考虑分离株和MAGs时的外推曲线,表明更大的泛基因组。这说明了将MAGs纳入理解该物种基因组多样性的影响,突显了MAGs显著增加了已知基因库,超出了仅通过分离株观察到的结果。

进行泛基因组分析的基本方法包括收集物种的所有蛋白质序列并将其聚类以识别同源基因¹¹¹。虽然这种方法效率高,但它不能区分旁系同源物,即源自基因组内基因重复并通常进化出不同功能的基因¹¹²。一种更高级的技术在保留共线性的同时对同源基因进行分组,使用纳入基因邻域信息的基于图的方法¹¹³。该策略在Roary¹¹⁴、PPanGGOLiN¹¹⁵和panaroo¹¹⁶等泛基因组分析工具中广泛使用。然而,这些工具在准确分组共线性保守性弱的基因时可能会遇到困难,特别是那些受不同物种间HGT影响的基因¹¹¹。

基因组质量在泛基因组分析中起着关键作用。MAGs虽然易于获取,但往往面临质量问题,如碎片化组装和分箱过程中的潜在污染。碎片化组装可能导致基因丢失,特别是在重叠群末端,可能影响核心基因组。相反,污染可能导致附属基因组中的假阳性,导致明显扩张¹¹⁷。Panaroo是用于MAGs泛基因组分析的广泛使用工具,擅长管理与MAGs相关的挑战,如截断末端和潜在污染,尽管并非专门为MAGs设计。最近,ggcaller¹¹⁸作为另一种工具被引入,以解决泛基因组分析中的类似挑战。

为特定环境编目微生物基因组:迈向全面的参考微生物组

微生物组样本的分类和功能分析可以通过基于组装或无组装的方法实现。基于组装的方法涉及将序列读段从头组装成重叠群和物种桶,虽然不依赖参考微生物基因组,但耗时且计算密集。因此,对于人类肠道等常见研究环境,首选方法是利用参考微生物基因组的无组装方法。MAGs的广泛收集促进了针对特定环境设计的特定生物群落参考数据库的深入研究¹¹⁹。这些参考为给定环境提供了丰富的基因组和蛋白质序列源,有助于识别以前未知的基因组和蛋白质。使用特定生物群落参考作为数据库对于研究人类肠道微生物组等复杂环境特别有利,无需从头组装即可快速准确地进行宏基因组样本的分类和功能分析。

有几个针对人类肠道的特定参考微生物基因组目录。统一人类胃肠道基因组(UHGG)¹²⁰是一个综合目录,合并了三个先前的大规模人类肠道细菌基因组集合¹¹,⁶¹,⁶⁷。UHGG提供了跨越4644种原核生物物种的204,938个非冗余基因组。然而,UHGG集合表现出地理偏差,主要代表来自美国、中国、丹麦和西班牙的样本,因此缺乏来自其他各种地区的肠道微生物代表性。为缓解这一限制,引入了HRGM³²,其中添加了来自三个东亚国家(韩国、印度和日本)的粪便宏基因组样本的MAGs。HRGM将范围扩展到跨越5414种原核生物物种的232,098个非冗余基因组,与UHGG相比,基因组和物种数量均增加了约10%。这些目录已显著提高了分类读段的分类能力,超过了传统目录(如参考序列(RefSeq)数据库)的可用性,从而强调了拥有全面目录对于研究人类肠道微生物组的重要性³²,¹²⁰。进一步的努力产生了针对代表性不足的地理区域(如以色列¹²¹、新加坡¹²²和内蒙古¹²³)的人类肠道微生物组的其他目录。此外,对三岁以下儿童粪便宏基因组的MAGs编目揭示了许多新微生物物种,为早期人类肠道微生物组研究提供了宝贵见解⁶¹。

序列解析的微生物组分析:人类微生物组的群体遗传学视角

基因组解析微生物组分析的关键优势在于将基因组学应用于研究人类微生物组。随着访问各种亚种的众多基因组,探索人类微生物组中物种内的遗传多样性已成为可能¹²。这种遗传变异对于多种应用至关重要,包括追踪相同菌株、识别与宿主表型相关的特定菌株以及发现与宿主表型相关的细菌遗传变异¹²⁴。利用菌株间单核苷酸变异(SNVs)的菌株水平分析一直至关重要¹²⁵。最近的研究表明,细菌SNVs与宿主表型(如体重指数)相关,强调了微生物组研究中核苷酸水平多样性的意义²¹。通过研究其与人类健康的关系,也对人类微生物组中细菌结构变异(SVs)进行了分析努力²⁰。例如,人类肠道细菌中的SVs与胆汁酸代谢¹²⁶和对免疫检查点抑制剂的反应¹²⁷相关,从而突显了基因组解析分析在理解人类微生物组方面提供的重大见解。

检测细菌遗传变异的传统方法涉及培养微生物、分离其基因组、对其进行测序,然后通过全基因组比对识别错配¹²⁸。然而,这种方法对于人类肠道微生物组效果较差,因为微生物组的很大一部分仍未培养。一种替代策略是宏基因分型,涉及将WMS读段与参考微生物基因组对齐以识别遗传变异;这种策略为分析人类肠道微生物组提供了一个可行的解决方案。用于基于读段比对的宏基因分型的关键工具包括StrainPhlAn¹²⁹、metaSNV¹³⁰和MIDAS¹³¹。这些方法虽然全面,但耗时且需要高读段覆盖深度才能准确区分实际遗传变异和测序错误。为克服这些限制,已开发出诸如GT-Pro¹³²等新工具,它们采用精确k-mer匹配算法进行宏基因分型。k-mer基于的方法比基于读段比对的技术更快,尽管有时准确性较低。

宏基因分型已成为探索微生物群落在菌株水平上传播的关键工具。宏基因分型的应用范围从研究体内微生物转移(如从口腔到肠道)到调查特定疾病可能如何与口腔-肠道微生物传播相关联¹⁷,¹³³。除了个体水平研究外,宏基因分型对于检查个体间微生物转移也至关重要,包括从母亲到婴儿的垂直传播以及在家庭或更大人群中微生物共享¹⁶,¹³⁴。宏基因分型的另一个重要应用是分析粪便微生物群移植(FMT)后肠道微生物组组成中菌株水平的变化,为这种治疗干预提供了宝贵见解¹³⁵,¹³⁶,¹³⁷。这些例子突显了宏基因分型在各种传播相关研究领域的多功能性和潜在有用性。

宏基因分型还被证明在追踪肠道微生物组的进化动态方面有效,无论是在个体内部还是在不同个体之间。当应用于来自单个人的纵向样本时,此技术允许比较个体内和个体间的菌株相似性。宏基因分型还使得观察特定物种的特定菌株如何在个体内随时间进化成为可能¹²⁹,¹³⁸,¹³⁹,¹⁴⁰,¹⁴¹。此外,宏基因分型已用于检测肠道微生物中因外部影响(如抗生素治疗)而发生的遗传变化¹⁴²。这些应用表明,宏基因分型在更广泛的研究中具有相当大的潜力,特别是在检查各种因素如何诱导肠道微生物的遗传变异方面。

MAGs的代谢建模:实现个人微生物组的代谢模拟

随着个性化医学的发展,模拟宿主-微生物组代谢相互作用对于预测健康结果和定制治疗变得至关重要¹⁴³,¹⁴⁴,¹⁴⁵。过去,代谢工程领域主要使用从具有完整基因组序列的可培养物种重建的基因组规模代谢模型(GEMs)来预测遗传内容¹⁴⁶,¹⁴⁷。目前,MAGs数量的最新激增为重建尚未可培养的肠道共生微生物的GEMs打开了大门。

重建GEMs的主要目标是绘制特定生物体的行为并预测其在个体模型中的相互作用。基因组序列的重建是一个细致且费力的过程,需要彻底的策划。鉴于人类微生物组中微生物的巨大多样性(包括数千种物种),此过程的自动化至关重要。为此,已开发了几种用于自动化GEM重建的工具,如RAVEN¹⁴⁸、Pathway Tools¹⁴⁹和merlin¹⁵⁰,这些工具大大有助于基于MAG的代谢建模。其中值得注意的工具包括ModelSEED¹⁵¹,¹⁵²、CarveMe¹⁵³和gapseq¹⁵⁴。生成的GEMs可以使用MEMOTE¹⁵⁵进行评估,该工具提供了质量评估的标准方法。该工具确保GEMs满足准确性及完整性的特定标准,从而促进其在研究和应用中的使用。

ModelSEED是一个基于网络的平台,简化了生成草图代谢模型的过程。该平台使用SEED框架管道,从组装基因组序列并将其提交到RAST注释服务器进行遗传内容预测开始¹⁵⁶。该过程包括构建基因-蛋白质-反应关联、生成生物量反应、组装反应网络以及分析反应可逆性热力学。最终结果是一个优化的草图模型。AGORA项目使用ModelSEED管道,通过从MAGs自动生成草图模型并与手动策划相结合,为人类肠道细菌生成了7000多个GEMs¹⁵⁷,¹⁵⁸。

CarveMe是一个命令行工具,旨在快速自动地重建GEMs。该过程从创建来自BiGG Models¹⁵⁹中反应和代谢物的通用草图模型开始,并通过整合细菌代谢的关键方面手动注释来完善通用模型。CarveMe然后使用称为"雕刻"的过程为此特定物种定制该模型,包括填补间隙并移除对每个物种无关的反应和代谢物¹⁵³。该管道在保持关键代谢功能的同时,快速重建来自基因组序列的代谢模型。

gapseq是另一个用于模型重建的自动化工具,它利用多个生物化学数据库从遗传内容预测途径。与其他工具不同,它的反应数据库源自UniProt¹⁶⁰蛋白质序列数据库和转运蛋白分类数据库(TCDB)¹⁶¹,包含131,207个独特序列¹⁵⁴。这些序列促成了15,150个反应和8,446个代谢物,这些被整合到通用模型中用于重建和填补间隙,从而提供了全面的模型构建方法。

从GEMs推断生物体表型行为的主要技术是基于约束的重建和分析(COBRA)¹⁶²,¹⁶³。COBRA采用系统生物学方法,在各种约束条件下,数学和计算上模拟生物体的表型行为。这些约束可以代表遗传变异、环境条件或不同行为之间的相互作用。在COBRA框架内,通量平衡分析(FBA)是最广为人知的方法。FBA使用数学技术解决线性问题,并确定在特定约束下重建代谢模型内的最优代谢通量(质量或速率)¹⁶⁴。FBA特别适用于模拟各种生物现象,包括最大生长速率、代谢物产生速率以及基因敲除的影响。这些COBRA方法可通过一系列开源软件包获得¹⁶⁵,¹⁶⁶,¹⁶⁷,¹⁶⁸,其中COBRA工具箱最为流行。

人类肠道细菌的GEMs通常用于预测微生物之间的代谢相互作用并进行群落代谢建模。诸如CASINO¹⁶⁹、BacArena¹⁷⁰和微生物组建模工具箱¹⁶³等工具是这些目的中最受欢迎的。肠道中的许多细菌物种在代谢上依赖于其他物种,这种依赖性通常决定了它们在微生物群落中的共存¹⁷¹。对这些代谢相互作用的建模是理解微生物生态系统(包括人类肠道微生物组)结构和韧性的关键。此外,个人肠道微生物组的代谢建模可以揭示特定代谢物在人类疾病中的作用。建模的这一方面特别重要,因为它可以揭示微生物组、疾病和潜在治疗之间的联系¹⁷²,¹⁷³,¹⁷⁴。此外,模拟宿主、微生物组和饮食之间的相互作用可以为个性化饮食建议或药物剂量提供信息¹⁷⁵。因此,利用MAGs和GEMs的群落范围代谢建模有望为精准微生物组医学做出重大贡献¹⁷⁶。

局限性与挑战

当前在人类微生物组研究中应用基因组解析宏基因组学存在一些挑战和局限性。首先,现有数据库中的相当大比例的MAGs代表不完整的基因组。这些基因组通常包含缺口。参考基因组的质量在后续基于基因组的微生物组分析的成功中起着关键作用。因此,目前正在积极研究开发能够重建无缺口完整MAGs(cMAGs)的方法⁴⁸。传统短读段测序技术在组装不同物种间高度保守的序列区域(如16S rRNA基因)以及捕获通过HGT在物种间转移的基因组区域方面表现不佳。研究人员正在探索结合长读段测序的方法作为解决方案。最初,混合测序结合了短读段测序的核苷酸级精度和长读段序列的模板,用于构建cMAGs¹⁷⁷。最近,仅使用高保真长读段测序也被证明在构建cMAGs方面取得了成功¹⁷⁸。高保真长读段宏基因组测序的使用有望导致人体内共生细菌完整基因组的快速增加。

其次,大多数MAGs已从源自少数国家的宏基因组样本中组装¹⁷⁹。微生物组数据中这种不平等的代表性,以及因此组装的基因组,可能导致各种问题。这些问题包括对不同人群中微生物组多样性的理解不完整以及微生物基因组参考的编目不完整。潜在后果包括在识别与疾病相关的微生物时的不一致以及在比较微生物组研究中的误解。因此,未来基于MAG的人类微生物组研究应优先考虑代表性不足的人群。

第三,将基因组解析宏基因组学应用于低生物量样本(如组织微生物组)具有挑战性。在这种情况下,鸟枪测序读段中只有一小部分源自微生物基因组。为解决这一挑战,已开发出各种去除宿主DNA的方法¹⁸⁰,¹⁸¹,¹⁸²,¹⁸³,并且目前有多种商业可用的宿主DNA去除试剂盒¹⁸⁴,¹⁸⁵。有效地富集细菌DNA显著增加了从低生物量样本重建MAGs的可能性。这扩展了基因组解析宏基因组学方法在人体内更广泛的微生物群落中的适用性。

参考文献

[此处省略参考文献列表,因格式要求只保留正文内容]

致谢

本研究得到了韩国健康技术R&D项目、韩国健康产业发展研究所(KHIDI)、韩国保健福祉部资助项目HI19C1344(NY)的支持。P.B.得到了美国国家糖尿病、消化和肾脏疾病研究所(R01 DK125382)的支持。资助机构在本手稿的设计和准备中未发挥作用。

作者信息

作者和所属机构

  1. 生物技术系,生命科学与生物技术学院,延世大学,首尔,03722,大韩民国

Nayeon Kim, Junyeong Ma, Wonjong Kim, Jungyeon Kim & Insuk Lee

  1. 分子微生物学与免疫学系,布朗大学,普罗维登斯,RI,02912,美国

Peter Belenky

  1. POSTECH生物技术中心,浦项科技大学(POSTECH),浦项,37673,大韩民国

Insuk Lee

通讯作者

通讯请联系Peter Belenky或Insuk Lee。

伦理声明

竞争利益

作者声明无竞争利益。

补充信息

出版者说明 Springer Nature对已发表地图和机构隶属关系中的管辖权主张保持中立。

补充表1

【全文结束】

猜你喜欢
  • 哈佛陈公共卫生学院微生物组研讨会哈佛陈公共卫生学院微生物组研讨会
  • 粪便微生物移植提高晚期肾癌患者对免疫疗法的响应率粪便微生物移植提高晚期肾癌患者对免疫疗法的响应率
  • 益生菌食品的最佳食用时间:促进肠道健康与免疫力益生菌食品的最佳食用时间:促进肠道健康与免疫力
  • 粪便药丸能否成为抗癌的秘密武器粪便药丸能否成为抗癌的秘密武器
  • 科学还能承受偶然发现吗?科学还能承受偶然发现吗?
  • 科罗拉多州一医疗系统如何利用基因技术实现患者个性化护理科罗拉多州一医疗系统如何利用基因技术实现患者个性化护理
  • 新型“粪菌胶囊”可显著提升癌症治疗效果突破性试验发现新型“粪菌胶囊”可显著提升癌症治疗效果突破性试验发现
  • 后生元被发现促进抗癌免疫功能后生元被发现促进抗癌免疫功能
  • 即使不含尼古丁的电子烟也改变了鱼类肠道健康即使不含尼古丁的电子烟也改变了鱼类肠道健康
  • 肠道健康如何影响激素性痤疮肠道健康如何影响激素性痤疮
热点资讯
全站热点
全站热文