摘要
近年来,大量证据表明共生细菌与人类疾病有关,这催生了生物医学研究的一个新领域:微生物组医学。这一新兴领域旨在理解和利用人类微生物群及其衍生分子进行疾病预防和治疗。尽管这一生态系统具有复杂且层次化的组织结构,但多年来大多数研究都依赖于16S扩增子测序,这是细菌系统发育和分类学的传统方法。虽然先进的测序技术使得对整个微生物群进行成本效益分析成为可能,但将相对较短的核苷酸信息转化为微生物组的功能和分类组织一直面临挑战。在过去十年中,旨在直接从全宏基因组测序数据重建微生物基因组的基因组解析宏基因组学取得了显著进展,并继续揭示各种与人类相关的微生物群落的奥秘。全宏基因组测序数据量以及公共数据库中新型宏基因组组装基因组和蛋白质序列的编目都迅速增加。本综述概述了基因组解析宏基因组学研究人类微生物组的能力和方法,重点研究人类肠道的原核微生物群。正如解码人类基因组及其变异标志着基因组医学时代的开始,揭示共生微生物的基因组及其序列变异正引领我们进入微生物组医学时代。基因组解析宏基因组学是这一转变的关键工具,可以加速我们实现这些科学和医学里程碑的进程。
引言
人体内栖息着大量共生微生物细胞,其数量超过宿主自身的细胞,并对人类生理产生重大影响。随着关于共生微生物在人类疾病中作用的证据不断积累,微生物组医学已成为生物医学研究的一个新领域。该领域旨在利用人类微生物群及其衍生分子来预防和治疗疾病。实现这一目标需要对人类微生物组的分类和功能组织有全面的了解。
历史上,微生物群落研究一直是微生物生态学的一个领域,最初主要关注环境微生物。然而,人体内发现的大量微生物群落扩展了这一领域的范围。多年来,人类微生物组研究一直采用基于细菌系统发育和分类学的方法,特别是16S rRNA基因序列分析,这种方法足以揭示患病微生物组与其健康对应物之间的分类组成差异。然而,16S rRNA序列有限的分类分辨率及其无法进行功能分析的固有缺陷,阻碍了进一步的发展,包括识别直接影响宿主生理的微生物组功能元素。这种情况类似于人类基因组可用之前的人类遗传学。缺乏全面的人类基因组图谱意味着疾病基因的搜索基于稀疏的基因组标志物,导致只能识别与疾病相关的广泛染色体区域。这种方法通常需要随后多年的深入研究才能精确定位负责的基因。人类基因组的解码和单核苷酸变异的编目加速了与疾病相关基因和遗传变异的发现,从而 ushered in the era of genomic medicine( ushered in the era of genomic medicine)。
在本综述中,我们主张在微生物组医学中实现类似的转变。解码所有共生微生物物种的完整基因组并编目其遗传成分,将加速开发源自人类微生物组的新生物标志物和治疗方法。多年来,基因组组装,特别是对于尚未培养的物种,一直面临技术挑战。然而,基因组解析宏基因组学的最新进展已带来研究的重大变化。已开发出多种计算方法,用于从宏基因组鸟枪测序数据进行从头基因组组装,导致以宏基因组组装基因组(MAGs)形式的草图基因组迅速积累。本综述讨论了MAG构建的计算方法及其对人类微生物组研究的影响,特别关注肠道微生物组研究。此外,虽然相同的研究框架可以应用于研究体内的各种微生物群落,但本综述主要探讨原核共生微生物的研究,同时指出MAG重建也可用于共生真菌和病毒。
16S rRNA基因测序的固有限制
16S rRNA基因测序因其成本效益和直接的生物信息学解释而成为微生物群落分类分析的流行方法,使其广为普及。然而,这种方法有几个与其分析目标(16S rRNA序列)相关的固有限制。
首先,16S rRNA序列的变化通常不允许在物种水平上进行分类分类。最近的研究表明,即使使用长读长测序分析整个16S区域,也可能不足以进行物种水平的分类区分。此外,同一物种内微生物在亚种水平上的差异可能对宿主生理产生重大影响,而这些细微差别在微生物组的分类分析中常常被忽略。其次,16S rRNA序列不提供有关微生物功能能力的信息。尽管诸如PICRUSt等工具允许基于16S rRNA序列预测代谢途径,但结果仅是基于与给定16S rRNA序列相关联的有限代表性基因组的推断。第三,16S rRNA序列是原核生物特有的,使得使用此序列信息无法检测非细菌共生体,如真菌、病毒和原生生物。第四也是最关键的是,研究被认为是"微生物暗物质"的新物种具有挑战性,因为16S rRNA序列的解释严重依赖于已知细菌物种填充的数据库。这种依赖性可能会阻碍对先前未表征的微生物实体的发现和理解。
全宏基因组测序(WMS)的微生物组分析:新范式
人类微生物组计划(HMP)与人类基因组计划的不同之处在于,它没有从测序数据中产生参考基因组。这是由于从源自各种细菌来源的混合序列读数中组装单个细菌基因组的复杂性。当时,计算算法不够先进,无法有效分离和准确组装这些基因组。尽管如此,HMP对于将微生物组研究转向WMS至关重要,WMS涉及对样本中的所有遗传物质进行测序,以提供对微生物组更全面的理解。
HMP通过向公众发布来自健康人类微生物组的WMS数据集,对人类微生物组研究做出了重大贡献。这些数据集包括来自肠道的541个样本、来自阴道微生物组的215个样本、来自口腔微生物组的1090个样本和来自皮肤微生物组的56个样本,突显了该项目的广泛范围及其对理解人类健康的影响力。这一发布促成了众多用于分析的生物信息学工具的开发。HMP的第二阶段,称为HMP2或iHMP,旨在提供对宿主-微生物组随时间相互作用的更全面理解。HMP2生成了大量涵盖宿主和微生物组相互作用的多组学数据。这些数据包括与妊娠和早产、炎症性肠病以及糖尿病前期相关的WMS数据。因此,公共数据库中的人类肠道样本WMS数据增加了2000个,阴道样本增加了930个,从而进一步推进了人类微生物组研究可用的资源。得益于这一大规模联盟项目和众多其他研究,人类肠道微生物组WMS数据集的数量迅速增长,到2023年已超过110,000个样本(图1)。然而,一个显著问题是数据中的显著地理偏见。大多数公共WMS数据来自美国、中国和一些欧洲国家等少数国家,导致亚洲和非洲大多数国家的肠道微生物组数据代表性不足。这一差距至关重要,因为肠道微生物群组成受到饮食和生活方式的严重影响。因此,当前的人类肠道微生物组数据景观缺乏全面性。在未来的样本收集和分析中纳入代表性不足的人群,对于更准确地了解全球人类肠道微生物组至关重要。
图1:提交到NCBI序列读取档案(SRA)的人类肠道全宏基因组测序(WMS)样本按国家和年度分布。
条形图显示了每年提交到NCBI SRA的人类肠道WMS样本的累计数量。饼图插图分解了不同国家对总样本提交的贡献;截至最后记录的年份,美国贡献最大,其次是中国、瑞典和其他国家。贡献少于2%的国家归类为"其他"。此图突显了公共数据库中人类肠道WMS数据的增长率和地理偏见。
基因组解析宏基因组学:实现人类微生物组的多方面研究
基因组解析宏基因组学是微生物组研究中的一种变革性方法,深入研究混合微生物群落的DNA,直接从宏基因组数据组装和分析单个基因组。与传统的16S rRNA测序相比,该技术标志着显著进步,为人类微生物组提供了更深入的理解和前所未有的见解(图2)。
图2:微生物组分析中16S rRNA测序和全宏基因组测序(WMS)的比较。
a 16S rRNA测序分析可用于进行分类分析和基于分类概况的功能推断。b 通过WMS进行微生物组分析的各种途径,包括无组装和基于组装的方法。该图强调了WMS与16S rRNA测序相比在理解微生物组方面提供的全面见解。
该方法的核心,基因组解析宏基因组学允许组装涵盖各种微生物(包括细菌、病毒和真菌)的新基因组。包括这些新物种基因组扩展了系统发育树,从而将先前无法检测的物种带入焦点。此外,物种水平上基因组数据的日益可用性促进了对物种内变异的深入调查。这一进展为开发全面的泛基因组奠定了基础,将提供对物种内遗传多样性的更详细理解。研究人员现在能够发现众多新的编码序列,这可能导致识别新的宏基因组蛋白质家族。细菌物种内的基因组比较有助于追踪共生细菌的个体内和个体间传播,而基于基因组的分析则通过基因突变和水平基因转移揭示了微生物组的进化。物种内的遗传多样性反映了微生物组在特定宿主环境中的适应历程,从而揭示了微生物基因组的单核苷酸变异(SNVs)或结构变异(SVs)与宿主表型之间的潜在统计关联。最后,MAGs使我们能够对未培养的细菌物种进行基因组规模的代谢建模,这些物种代表了人类肠道微生物组的很大一部分,最终允许对个体微生物组进行代谢建模。
从宏基因组测序读数组装单个微生物基因组
从源自各种微生物的混合短读数生成MAGs是基因组解析宏基因组学的第一步。MAGs的构建包括两个步骤:组装和分箱(图3)。
图3:从宏基因组样本重建宏基因组组装基因组(MAG)的工作流程。
此流程图概述了从粪便样本生成MAGs的过程。该程序从收集粪便样本开始,然后进行鸟枪宏基因组测序以获得片段化DNA。然后将DNA片段组装成重叠群。这些重叠群基于核苷酸组成和覆盖深度聚类,通过分箱过程形成MAGs。最后一步是对组装的基因组进行质量评估,评估完整性和检查污染。
在初始组装步骤中,短读数被拼接成更长的重叠群,类似于拼图的组装,其中这些短读数的重叠区域充当连接元素。通常,有两种组装模型:重叠-布局-共识(OLC)模型和De Bruijn图。在OLC模型中,每个读数被表示为图中的一个节点,读数之间的重叠被描述为边。然而,随着测序深度的增加,这种方法可能导致大型复杂图。相比之下,De Bruijn图模型通过将读数分成k-mer来增强可扩展性。短读组装器如metaSPAdes和MEGAHIT采用这种策略,将短读分成k-mer片段,然后使用De Bruijn图将这些片段组装成扩展的重叠群。组装过程可以通过两种方式进行:单组装,即对每个样本独立进行;和共组装,即在合并多个样本后进行。每种方法都有明显的优点和缺点(补充表1a)。与互连的海洋和土壤等环境样本不同,人类肠道微生物组代表了一个在个体间变化的特定环境。因此,保留如SNVs等菌株特异性变异至关重要。菌株特异性的保留可以通过De Bruijn图中的不同路径实现。然而,此过程会导致生成大量片段化的重叠群。因此,我们建议采用单组装方法。如果目标是捕获低丰度分类群,建议增加测序深度而不是进行共组装。
接下来是分箱步骤,源自同一基因组的重叠群被分组到对应于特定基因组的箱中。分箱涉及基于序列组成和覆盖深度将相似的重叠群聚类。序列组成指核苷酸特征,包括k-mer。鉴于一个物种通过其基因组中k-mer和GC比率的恒定性来区分,这些特征可用于将重叠群聚类到一个基因组箱中。四核苷酸频率(TNF)是最常用于此目的的度量,并且与其他k-mer大小相比表现出优越的性能。此外,源自同一基因组的重叠群在样本中共丰度,使具有相似覆盖深度的重叠群更可能属于同一基因组。覆盖深度可以从单个样本(单覆盖分箱)和从一组样本(多覆盖分箱)计算。这两种方法各有优缺点(补充表1b)。基于单个样本内共丰度的单覆盖分箱可能会无意中将污染的重叠群引入基因组箱中,这可能会影响下游分析。为减轻此问题,我们建议采用多覆盖分箱,利用多个样本中的共丰度。实施此方法需要仔细考虑在多覆盖分箱中要集体分析哪些样本,以确保准确性并减少污染风险。
此外,在将同一物种的重叠群聚类时,各种工具在用于分箱的特征和算法上有所不同(补充表1c)。鉴于没有单一工具在所有情况下都能普遍优于其他工具,使用几种分箱工具并通过集成方法组合其结果很常见。合并步骤,称为箱优化,将多个分箱工具的结果组合成具有最高质量重叠群组合的单个箱。用于此过程的工具总结在补充表1d中。
由于生成的基因组序列可用于各种下游分析,我们需要测量最终箱的质量,即单个基因组序列。虽然有N50和重叠群数量等定量质量指标,但有两个绝对指标用于测量基因组质量,这些指标普遍定义了MAG质量:完整性和污染。基因组序列的可靠性与其完整性成正比,与污染水平成反比。根据广泛认可的宏基因组组装基因组(MIMAG)标准,完整性超过50%且污染少于10%的基因组被归类为中等质量草图基因组。相比之下,完整性超过90%且污染少于5%的基因组被认为是近乎完整的草图基因组。完整性指组装的基因组序列覆盖实际基因组的程度。基因组序列的低完整性可能导致在推断其功能能力或进行代谢建模时低估物种的功能能力。基因组序列中的污染表示存在不属于正在测序的基因组的外来片段。基因组序列中的污染源于各种来源,包括在分箱过程中由于其相似的序列组成而混合密切相关的基因组。此外,系统发育上不同的基因组可能因各种原因而受到污染。有各种计算工具可用于检测基因组中的污染(补充表1e)。由于工具的强项不同,出于全面质量控制的目的,建议使用多种工具。污染的另一个常见来源是包含宿主序列,如微生物组研究中的人类DNA,或真菌和病毒序列。特别是对于涉及真核生物或病毒序列的第三种污染类型,需要格外小心。
通过MAGs扩展系统发育及其分类
生物信息学的最新进展和宏基因组测序成本的降低大大促进了需要准确分类的细菌MAGs的大规模构建。传统上,细菌基因组的分类依赖于国家生物技术信息中心(NCBI)分类法,这是一个基于原核生物国际命名法规的系统。然而,这种共识基础的命名系统往往难以跟上新物种的快速识别和分类。为解决这些挑战,一种自动和客观的分类新细菌和古菌基因组的方法涉及将其整合到参考系统发育树中。基因组分类学数据库(GTDB),一个参考细菌分类数据库,为此提供了当代解决方案。与通常使用16S rRNA区域进行分类的NCBI分类法不同,GTDB基于120个特定的单拷贝标记蛋白用于细菌基因组。GTDB还努力纠正传统分类法中的常见问题,如移除多系群以使系统发育与分类法一致,以及标准化不平等的分类等级。GTDB工具包(GTDB-Tk)的开发旨在通过将其置于GTDB框架内,促进新基因组的准确分类。这种系统发育参考允许基于基因组序列对新物种进行分类注释,通过确定其系统发育位置。虽然GTDB中目前大多数物种都携带非标准占位符名称,但该系统允许基于基因组序列对新物种进行分类注释,通过推断其在系统发育中的位置。
许多MAGs揭示了新的微生物物种,从而显著扩展了当前的系统发育树。这一进展在人类肠道微生物组研究中尤为明显,其中只有有限数量的物种被分离,绝大多数未被培养。例如,迄今为止,在人类参考肠道微生物组(HRGM)中编目的原核物种中,不到20%具有至少一个从分离菌株组装的基因组(分离基因组),大多数物种仅由MAGs定义(图4)。值得注意的是,几个大的细菌分类群尚未有任何分离基因组。随着通过MAGs组装未培养物种基因组变得越来越容易,代表原核生命的系统发育树有望迅速扩展。
图4:具有分离基因组和宏基因组组装基因组(MAGs)的物种或属与仅具有MAG的物种或属的比较。
a 系统发育树代表HRGM中编目的5414种微生物物种,其中893种(16.5%)在外环上标记为至少具有一个分离基因组。b 柱状图比较了仅由分离基因组、仅由MAGs以及同时具有分离基因组和MAGs组成的属的数量。"非单例属"列显示排除了仅由单个物种表示的属的数字。此可视化强调了MAGs在表示微生物多样性方面的补充作用,特别是在非单例属中。
MAGs的功能注释:理解新基因组
编译基因组的部件列表是理解细菌物种的基本步骤,涉及预测MAGs中的开放阅读框(ORFs)及其功能注释。最近的一项基准研究表明,在各种基因预测工具中,没有一种工具普遍优于其他工具。然而,Prodigal作为该领域中最受欢迎的工具之一,在不同场景中持续表现出稳健的性能。Prodigal通过无监督学习识别序列中的关键特征,如核糖体结合位点(RBS)基序、起始密码子使用和编码统计。这种方法允许对非模型细菌生物进行有效的基因预测。一旦预测了ORFs,它们就会经过自动功能注释,其中每个基因都基于其与已知蛋白质的同源性分配功能术语。用于此类同源功能注释的广泛使用的数据库是eggNOG,其中包含数百万个直系同源群(OGs)。与其他注释工具相比,eggNOG-mapper因其高准确性而特别引人注目,这可以通过有效区分旁系同源物(具有潜在不同功能的相似序列)来实现。提供同源功能注释的其他工具包括InterProScan、Prokka、Bakta、DRAM和MicrobeAnnotator。功能注释工具利用各种数据库提供注释,主要包含KEGG(途径/直系同源)、基因本体论、Pfam和碳水化合物活性酶数据库(CAZy)注释。这些数据库因其在生物研究各个领域的综合资源而被广泛使用。
基因组挖掘是在原核基因组中识别具有特殊功能基因的关键方法,特别是在抗生素耐药性方面,由于抗生素的广泛使用,这对人类健康是一个日益严重的关切。这种过度使用导致了抗生素耐药病原体的出现。抗生素耐药基因(ARGs)可能起源于共生细菌,当它们通过水平基因转移(HGT)转移到病原体时,就成为重大风险。最近对人类肠道微生物组的研究表明,抗生素消耗与微生物组中ARGs的流行之间存在联系。ARGs的检测通常涉及使用RGI或ABRicate等工具将序列与已知ARG参考数据库进行同源比对以进行识别。对于识别新型ARGs,还使用了诸如隐藏马尔可夫模型(HMM)方法(如ResFam或fARGene)和深度学习技术(如deepARG或PLM-ARG)等方法。这些方法依赖于已知ARG序列的数据库进行准确识别。整合多个数据库,包括CARD、ResFinderFG和MEGARes,以增强ARG检测的全面性和准确性是常见的。
抗菌肽(AMPs)是短肽,通常由少于100个氨基酸组成,抑制包括细菌、真菌、寄生虫和病毒在内的各种微生物的生长。由于其抗炎和免疫调节特性,这些肽正在被评估为潜在的抗生素替代品。鉴于人类肠道微生物组的多样性,预计它将是新型AMPs的丰富来源。研究 increasingly focused on AMPs derived from the human gut microbiome, as they are likely nontoxic to human cells(as they are likely nontoxic to human cells)。基于机器学习的方法在识别AMPs方面已被证明比基于同源的方法更有效,这归因于它们的短长度。此外,最近的努力一直致力于使用深度学习技术来发现人类肠道微生物组中的新型AMP候选物。
通过MAGs扩展泛基因组:揭示单个微生物物种的完整功能潜力
单个物种的MAGs集合提供了对其功能潜力的洞察,通常概念化为泛基因组,该泛基因组包含物种内的所有基因,包括核心基因组(由大多数菌株共有的基因组成)和辅助基因组(由仅在部分菌株中发现的基因组成)。MAGs的纳入导致许多物种的泛基因组规模显著扩大,超过了仅从分离基因组构建的泛基因组。Akkermansia muciniphila在HRGM中的泛基因组分析例证了这一现象(图5)。辅助基因组对亚种内的功能多样性至关重要,对不同宿主的适应起着关键作用,并可能与致病特征相关。因此,开发区分核心和辅助基因组的全面泛基因组对于更深入地理解不同宿主群体中微生物物种的多样性至关重要。
图5:Akkermansia muciniphila泛基因组随着分离基因组和宏基因组组装基因组(MAGs)的扩展。
此图描述了随着更多基因组测序,Akkermansia muciniphila泛基因组规模(基因计数)的增长。实线表示仅分离基因组的稀释曲线,显示泛基因组规模初始快速增长,随着基因组数量增加开始趋于平稳。虚线表示同时考虑分离基因组和MAGs时的外推曲线,表明更大的泛基因组。这说明了MAGs对理解该物种基因组多样性的影晌,突显了MAGs显著增加了已知基因库,超过了仅通过分离基因组观察到的结果。
进行泛基因组分析的基本方法涉及收集物种的所有蛋白质序列并将它们聚类以识别同源基因。虽然这种方法效率高,但它不能区分旁系同源物,这些基因源自基因组内的基因重复,通常进化出不同的功能。更高级的技术在保留共线性的同时将同源基因分组,使用整合基因邻域信息的基于图的方法。该策略在Roary、PPanGGOLiN和panaroo等泛基因组分析工具中广泛使用。然而,这些工具在准确分组共线性保守性弱的基因时可能会遇到困难,特别是那些受不同物种间HGT影响的基因。
基因组质量在泛基因组分析中起着关键作用。MAGs虽然易于获取,但常常面临质量 issues,如片段化组装和分箱过程中的潜在污染。片段化组装可能导致基因丢失,特别是在重叠群末端,可能影响核心基因组。相反,污染可能导致辅助基因组中的假阳性,导致明显的扩展。panaroo是MAGs泛基因组分析中广泛使用的工具,擅长管理与MAGs相关的挑战,如截断末端和潜在污染,尽管它并非专门为MAGs设计。最近,ggcaller作为一种新工具被引入,用于解决泛基因组分析中的类似挑战。
为特定环境编目微生物基因组:迈向全面的参考微生物组
微生物组样本的分类和功能分析可以通过基于组装或无组装的方法实现。基于组装的方法涉及将序列读数从头组装成重叠群和物种箱,虽然不依赖于参考微生物基因组,但耗时且计算密集。因此,对于人类肠道等常见研究的环境,首选方法是使用参考微生物基因组的无组装方法。MAGs的广泛收集促进了针对特定环境设计的生物群落特异性参考数据库的深入研究。这些参考提供了给定环境的丰富基因组和蛋白质序列来源,有助于识别先前未知的基因组和蛋白质。使用生物群落特异性参考作为数据库对于研究人类肠道微生物组等复杂环境特别有利,无需进行从头组装即可快速准确地进行宏基因组样本的分类和功能分析。
有几种针对人类肠道的特定参考微生物基因组目录。统一人类胃肠道基因组(UHGG)是一个综合目录,合并了三个先前的大规模人类肠道细菌基因组集合。UHGG提供了跨越4644种原核物种的204,938个非冗余基因组。然而,UHGG集合表现出地理偏见,主要代表来自美国、中国、丹麦和西班牙的样本,因此缺乏来自其他各种地区的肠道微生物的代表性。为缓解这一限制,引入了HRGM,其中添加了来自三个东亚国家—韩国、印度和日本—的粪便宏基因组样本的MAGs。HRGM将范围扩展到跨越5414种原核物种的232,098个非冗余基因组,与UHGG相比,基因组和物种数量均增加了约10%。这些目录显著增强了对分类读数的分类,超过了传统目录(如参考序列(RefSeq)数据库)中可用的内容,从而强调了拥有全面目录对于研究人类肠道微生物组的重要性。进一步的努力产生了专注于代表性不足的地理区域(如以色列、新加坡和内蒙古)的额外肠道微生物组目录。此外,对三岁以下儿童粪便宏基因组的MAGs编目揭示了许多新微生物物种,为研究早期生活中的人类肠道微生物组提供了宝贵的见解。
序列解析微生物组分析:人类微生物组的群体遗传学视角
基因组解析微生物组分析的关键优势在于将基因组学应用于研究人类微生物组。通过访问各种亚种的众多基因组,探索人类微生物组中物种内的遗传多样性已成为可能。这种遗传变异对于多种应用至关重要,包括追踪相同菌株、识别与宿主表型相关的特定菌株以及发现与宿主表型相关的细菌遗传变异。菌株水平分析,利用菌株间的单核苷酸变异(SNVs),一直很关键。最近的研究表明,细菌SNVs与宿主表型(如体重指数)相关,强调了微生物组研究中核苷酸水平多样性的重要性。通过研究它们与人类健康的关系,也已努力对人类微生物组中的细菌结构变异(SVs)进行剖面分析。例如,人类肠道细菌中的SVs与胆汁酸代谢和对免疫检查点抑制剂的反应相关,从而突显了基因组解析分析在理解人类微生物组方面提供的重大见解。
检测细菌遗传变异的传统方法涉及培养微生物、分离其基因组、测序它们,然后通过全基因组比对识别错配。然而,这种方法对于人类肠道微生物组效果较差,因为微生物组的很大一部分仍未培养。另一种策略,宏基因分型,涉及将WMS读数与参考微生物基因组对齐以识别遗传变异;该策略为分析人类肠道微生物组提供了一个可行的解决方案。基于读数比对的宏基因分型的关键工具包括StrainPhlAn、metaSNV和MIDAS。这些方法虽然全面,但耗时且需要高读数覆盖以准确区分实际遗传变异和测序错误。为克服这些限制,已开发出使用精确k-mer匹配算法进行宏基因分型的新工具,如GT-Pro。与基于读数比对的技术相比,基于k-mer的方法更快,尽管有时准确性较低。
宏基因分型已成为探索微生物群落在菌株水平上传播的关键工具。宏基因分型的应用范围从研究体内微生物转移(如从口腔到肠道)到研究特定疾病如何与口腔-肠道微生物传播相关联。除了个体水平研究外,宏基因分型对于研究个体间微生物转移至关重要,包括从母亲到婴儿的垂直传播以及在家庭或更大群体中的微生物共享。宏基因分型的另一个重要应用是分析粪便微生物群移植(FMT)后肠道微生物组组成中菌株水平的变化,为这种治疗干预提供有价值的见解。这些例子突显了宏基因分型在各种传播相关研究领域的多功能性和潜在有用性。
宏基因分型也被证明在追踪肠道微生物组的进化动态方面有效,无论是在个体内还是在不同个体间。当应用于单个人的纵向样本时,该技术允许比较个体内和个体间的菌株相似性。宏基因分型还使我们能够观察特定物种的特定菌株如何在个体内随时间演变。此外,宏基因分型已用于检测肠道微生物中因外部影响(如抗生素治疗)而发生遗传变化。这些应用表明,宏基因分型在更广泛的研究中具有相当大的潜力,特别是在研究各种因素如何在肠道微生物中诱导遗传变异方面。
MAGs的代谢建模:实现个人微生物组的代谢模拟
随着个性化医学的进步,模拟宿主-微生物组代谢相互作用对于预测健康结果和定制治疗变得至关重要。过去,代谢工程领域主要使用为具有完整基因组序列的可培养物种重建的基因组规模代谢模型(GEMs)来预测遗传内容。目前,众多MAGs的可用性激增为重建尚未可培养的肠道共生微生物的GEMs打开了大门。
重建GEMs的主要目标是绘制特定生物体的行为并预测其在个体模型内的相互作用。基因组序列的重建是一个细致且费力的过程,需要彻底的整理。鉴于人类微生物组中微生物的巨大多样性,包括数千种物种,此过程的自动化至关重要。为此,已开发出几种用于自动化GEM重建的工具,如RAVEN、Pathway Tools和merlin,这些工具大大有助于基于MAG的代谢建模。值得注意的工具包括ModelSEED、CarveMe和gapseq。生成的GEMs可以使用MEMOTE进行评估,该工具提供了质量评估的标准方法。此工具确保GEMs满足准确性及完整性特定标准,从而促进其在研究和应用中的使用。
ModelSEED是一个基于网络的平台,简化了生成草图代谢模型的过程。该平台使用SEED框架流程,从组装基因组序列并将其提交到RAST注释服务器进行遗传内容预测开始。此过程涉及构建基因-蛋白质-反应关联、生成生物量反应、组装反应网络以及分析反应可逆性热力学。最终结果是一个优化的草图模型。AGORA项目使用ModelSEED流程,为人类肠道细菌生成了7000多个GEMs,结合了从MAGs自动生成草图模型和人工整理。
CarveMe是一个命令行工具,设计用于快速自动化GEM重建。该过程从创建来自BiGG Models中反应和代谢物的通用草图模型开始,并通过添加细菌代谢的关键手工注释方面来增强通用模型。CarveMe然后使用称为"雕刻"的过程为特定物种定制此模型,包括填补缺口和移除对每个物种无关的反应和代谢物。该流程快速重建来自基因组序列的代谢模型,同时保持关键代谢功能。
gapseq是另一个用于模型重建的自动化工具,利用多个生化数据库从遗传内容预测途径。与其他工具不同,其反应数据库源自UniProt蛋白质序列数据库和运输者分类数据库(TCDB),涵盖131,207个独特序列。这些序列贡献了15,150个反应和8,446个代谢物,它们被整合到用于重建和填补缺口的通用模型中,从而提供了一种全面的模型构建方法。
从GEMs推断生物体表型行为的主要技术是基于约束的重建和分析(COBRA)。COBRA采用系统生物学方法,在各种约束下数学和计算地模拟生物体的表型行为。这些约束可以代表遗传变异、环境条件或不同行为之间的相互作用。在COBRA框架内,通量平衡分析(FBA)是最广为人知的方法。FBA使用数学技术解决线性问题,并在特定约束下确定重建代谢模型内的最优代谢通量(质量或速率)。FBA特别适用于模拟各种生物现象,包括最大生长速率、代谢物产生速率以及基因敲除的影响。这些COBRA方法可通过一系列开源软件包获得,其中COBRA工具箱是最受欢迎的。
人类肠道细菌的GEMs经常用于预测微生物之间的代谢相互作用并进行群落代谢建模。CASINO、BacArena和Microbiome Modeling Toolbox等工具是这些目的中最受欢迎的。肠道中的许多细菌物种在代谢上依赖于其他物种,这种依赖性通常决定了它们在微生物群落中的共现。模拟这些代谢相互作用对于理解微生物生态系统(包括人类肠道微生物组)的结构和韧性至关重要。此外,个人肠道微生物组的代谢建模可以揭示特定代谢物在人类疾病中的作用。建模的这一方面特别重要,因为它可以揭示微生物组、疾病和潜在治疗之间的联系。此外,模拟宿主、微生物组和饮食之间的相互作用可以为个性化饮食建议或药物剂量提供信息。因此,利用MAGs和GEMs的群落范围代谢建模有望为精准微生物组医学做出重大贡献。
局限性和挑战
在当前人类微生物组研究中应用基因组解析宏基因组学存在一些挑战和局限性。首先,现有数据库中的很大一部分MAGs代表不完整的基因组。这些基因组通常包含缺口。参考基因组的质量在后续基于基因组的微生物组分析的成功中起着关键作用。因此,目前正在积极研究开发能够重建无缺口完整MAGs(cMAGs)的方法。传统的短读测序技术在组装不同物种间高度保守的序列区域(如16S rRNA基因)以及捕获通过HGT在物种间转移的基因组区域方面存在不足。研究人员正在探索结合长读测序的方法作为解决方案。最初,混合测序结合了短读测序的核苷酸级精度和长读序列的模板,用于构建cMAGs。最近,仅使用高保真长读宏基因组测序也成功构建了cMAGs。预计高保真长读宏基因组测序的使用将导致人体中共生细菌的完整基因组数量迅速增加。
其次,大多数MAGs是从来自有限数量国家的宏基因组样本组装而成的。微生物组数据中的这种不平等表示,以及由此产生的组装基因组,可能导致各种问题。这些问题包括对不同人群微生物组多样性的理解不完整和参考微生物基因组编目不完整。潜在后果包括在识别与疾病相关的微生物时的不一致性以及在比较微生物组研究中的误解。因此,未来基于MAG的人类微生物组研究应优先考虑代表性不足的人群。
第三,将基因组解析宏基因组学应用于低生物量样本(如组织微生物组)具有挑战性。在这种情况下,只有鸟枪测序读数的一小部分来自微生物基因组。为解决这一挑战,已开发出各种去除宿主DNA的方法,并且目前有多种市售的宿主DNA去除试剂盒。有效富集细菌DNA显著增加了从低生物量样本重建MAGs的可能性。这将基因组解析宏基因组学方法的应用扩展到人体内更广泛的微生物群落。
【全文结束】

