评估直接面向消费者的肠道微生物组测试服务的分析性能 - 硒与微生态

摘要

消费者对个人微生物组健康日益增长的兴趣催生了众多直接面向消费者(DTC)微生物组测试服务，尽管这些服务在分析有效性、临床有效性和消费者安全性方面仍存在疑问。这些测试介于受到严格监管的医疗器械和监管较少的一般健康与保健产品之间，这种区别对消费者来说可能并不明显。为评估该行业的现状，我们使用美国国家标准与技术研究院(NIST)开发的标准人类粪便材料评估了七种DTC肠道微生物组测试服务的性能。我们的结果显示，不同服务提供商之间存在重大差异，包括同一提供商内部和不同提供商之间。值得注意的是，我们发现不同提供商之间的变异程度与不同供体之间的生物变异程度相当。我们将观察到的差异归因于方法学变异性与质量控制不足。此外，我们强调分析性能是做出合理临床建议的前提条件。我们的结果表明，需要制定标准以确保分析有效性和消费者信心。

引言

在过去十年中，人类肠道微生物组已与多种健康和疾病状况相关联，包括心理健康、癌症和肥胖等。尽管利用宏基因组学进行微生物组表征的研究广泛，但目前美国尚无经监管批准的临床微生物组诊断测试，欧洲也只有一项获得CE-IVD认证的测序测试。事实上，法国微生物学会通过《世界报》(Le Monde)发文建议避免进行微生物组测试，主要原因是相关知识不足以及定义"健康"微生物组的个性化性质。

与此同时，尽管在技术与临床有效性方面存在挑战，直接面向消费者的个人健康服务正变得越来越容易获取。由于我们对微生物组结构-功能关系的理解仍然有限，因此基于个人微生物组做出可靠的诊断或预后预测的能力也有限。

尽管存在这些挑战，媒体经常突出报道肠道微生物组与人类健康之间的关联，导致许多消费者希望更好地了解自己的肠道健康。虽然像The Microsetta Initiative这样的公民科学项目为消费者提供了有关其肠道微生物组的基本信息，但人们对个人肠道健康状况和影响方面更具操作性的信息仍有需求。作为回应，众多商业DTC微生物组测试服务应运而生，为消费者提供其肠道微生物组的概况。许多公司将其服务扩展到微生物组分析之外，将微生物分类为病原体或有益菌，将消费者的微生物组概况与比较人群进行对比，提供肠道微生物组健康指数，或提供有关生活方式改变、饮食改变和/或膳食补充剂的建议。

虽然这些建议通常仅限于饮食干预，但已引发关于消费者保护的监管担忧。值得注意的是，技术已从传统上局限于临床环境并由训练有素的医疗专业人员进行的端到端诊断测试，转向如23andMe等DTC测试服务。这些服务引入了家庭测试套件，允许消费者(患者)自行采集样本，将其寄送到实验室，并在不咨询临床医生的情况下获取结果。主要担忧是这些家庭测试未经过与传统医疗诊断测试相同严格的分析性能验证。这种验证对于确保临床医生、患者和监管机构对测试结果的可靠性和可操作性至关重要。这种缺乏验证及其影响对消费者来说可能并不明显。

在数字出版时代，众多公民科学家、记者和微生物组研究人员已向不同公司提交样本并发表其结果。虽然这些案例研究通常引人入胜并提供一些轶事见解，但据我们所知，尚未进行严格的分析性能评估。美国国家标准与技术研究院(NIST)已开发出一系列候选人类粪便标准，通过严格的多组学分析确认其均质性和稳定性。这些材料旨在使利益相关者能够定性和定量地评估方法学变异性对其微生物组测量的影响。这些粪便标准由于均质且稳定，非常适合评估实验室内和实验室间测量工作流程的精确度(可重复性)。

在本研究中，我们描述了使用NIST开发的人类粪便标准评估七种DTC微生物组测试服务性能的方法。每项服务均采用基于下一代测序(NGS)的分析工作流程(16S rRNA基因扩增子测序或全宏基因组鸟枪测序(WMS))并提供详细的分析报告。我们评估了这些测试服务内部和之间的结果可重复性。

结果

实验设计策略

作为其促进美国创新和工业竞争力使命的一部分，NIST一直在与行业、学术界和其他政府机构的利益相关者合作，开发标准以支持微生物组科学的进步和商业转化。为此，我们希望评估DTC肠道微生物组测试服务的当前技术水平。为实现这一目标，我们部署了NIST开发的人类肠道微生物组(人类粪便)标准，以评估七家DTC肠道微生物组测试公司的精确度/可重复性。对于每家公司，我们通过公司网站订购了三个测试/套件。收到(3 × 7 = 21)个样本收集套件后，我们使用均质化的人类粪便材料池作为每个收集套件的测试样本材料。按照每家公司提供的说明进行收集程序(表1)。样本被放入公司提供的运输容器中并寄回公司进行分析。在样本寄出后2至8周内收到结果，以公司特定报告的形式呈现。从这些报告中手动提取分类学概况用于所有后续分析。值得注意的是，在所有样本处理完毕并收到NIST的最终报告之前，公司并未被告知正在进行的评估。材料和方法的详细信息可在方法部分找到。

表1 肠道微生物组测试方法学参数

方法学参数在各公司之间存在差异

将粪便样本组成转化为微生物组报告的过程是多方面的。由于目前尚无普遍接受的方法最佳实践，每家提供商可能采用独特且通常是专有的工作流程。微生物组测量受到大量方法学变量的影响，包括(1)样本收集、存储和运输方法，(2)核酸提取技术，(3)NGS文库制备，(4)测序技术，以及(5)生物信息学分析。每个步骤都可能引入偏差，即使是方法的微小变化也可能导致结果的显著差异。在本研究中，我们对各公司采用的工作流程了解有限；然而，我们能够推断出样本收集和测序方法学方面的关键差异。

表1显示了各公司在可能影响结果的某些方法学变量方面的比较。值得注意的是，样本收集方法存在相当大的差异，包括样本类型(完整排便vs使用过的厕纸)和采样工具。此外，一些公司指示用户将采样工具添加到缓冲液中，或将样本重新悬浮在缓冲液中并丢弃工具，而其他公司则指示用户将工具"原样"寄回，封装在次级无菌容器中。所有运输包装中均未包含冰，因此所有样本均在环境条件下运输(研究在春季进行)。并非所有公司都报告了从运输到接收样本的确切运输时间。通常，在运输后5-7天会发送样本接收或处理的通知。

关于测序方法学，一些公司使用标记基因扩增子测序，而其他公司则依赖WMS。在使用扩增子测序的公司中，一家使用16S rRNA基因扩增子测序的V3-4区域，其他两家使用16S rRNA基因扩增子测序的V4区域；此外，一家公司包括内部转录间隔区(ITS)扩增子测序以进行真菌鉴定。可能影响分类学鉴定特异性和敏感性的读取长度和测序深度因公司而异。尽管报告了广泛的读取深度范围，但单个公司内的变异性通常较窄(表1)。读取深度范围从<2 × 10^4到>1 × 10^7不等。有趣的是，较高的读取深度并不总是与鉴定出的物种数量更多相关。例如，公司C的三个复制品每个报告了超过600个物种，读取深度在2 × 10^4和3 × 10^4之间。相比之下，公司D为其三个复制品报告了95、98、99个物种，每个读取深度均超过1 × 10^7次读取。尽管未披露大多数读取处理的详细信息，但我们注意到不同公司对基于提供的分类学表进行分类分配的报告截止值不同(范围从0.1%到8 × 10^-6%)。

分类学概况在各公司之间存在差异

从各公司提供的数据生成分类学表的过程需要手动整理，因为报告格式各异(如PDF、HTML)。此外，完整的分类学概况并非公司A报告的一部分，而是通过向其帮助中心发送请求后获得的。为进行比较，NIST(称为公司H)也对与DTC公司共享的相同材料(供体5)的等分试样进行了宏基因组分析。此外，NIST工作流程中还包含来自7个其他独特供体(供体1、2、3、4、6、7、8)的分类学数据，以实现生物变异性(供体)与技术(方法学)变异性相关差异的比较。尽管每家DTC公司报告了物种级分类群，但NIST在所有后续分析中均使用属级分类群分配。

α多样性比较显示了多样性的范围，没有基于读取深度或测序方法的明确模式(图1A-C)。计算Bray-Curtis不相似性以比较七家公司的所有复制品和NIST(公司H)(图1D)。除了α多样性图外，排序图可以指示实验室间的可重复性。散点图中点的更紧密分布(图1A-C)和排序图(图1D)表明公司具有更高的可重复性(如公司F)，而公司A显示可重复性差。此外，没有基于使用WMS还是扩增子测序的明显聚类(WMS用实线椭圆表示，16S rRNA基因扩增子测序用虚线椭圆表示，如图1D所示)。

提出的一个问题是，由多家公司分析的单一样本所观察到的多样性与由单一工作流程分析的不同供体的生物多样性相比如何。计算了第二个Bray-Curtis不相似性指数，其中包括通过NIST工作流程处理的七个额外供体的数据。令人惊讶的是，由不同公司分析的单一供体样本的多样性(图1E中的星号，蓝色椭圆)似乎大于或等于生物上不同的样本(图1E中的其他形状，黄色椭圆)。这表明方法学变异性可能大于生物变异性。

图1E提供了这种变异性的视觉表示，但我们还寻求一种更定量的方法来比较方法学(公司之间)和生物(供体之间)的变异性。图2显示了方法学与生物方差的比率；该分析的完整描述可在"方法"部分找到。简而言之，使用贝叶斯方法确定将不同方法应用于相同样本(公司对供体5的分析)和将单一方法应用于多个供体(NIST对所有8个供体的分析)所产生的变异。此方法仅适用于此演示的常见分类群。图中显示的散点云代表每个样本的100次抽样。抽样可重现(种子集)，我们验证了重抽样不会实质性改变后验汇总统计。关键的是，完整的后验汇总(后验均值和95%可信区间以红色、蓝色和黑色显示)被叠加并作为推断的基础。如图2所示，只有一种属(Haemophilus，黑色显示)的均值和区间完全低于1，表明该属在方法之间的变异小于供体之间的变异。相比之下，18个分类群中有17个的区间完全高于1(方法学变异性超过供体)或区间穿过1(方法和供体之间的变异性相似)。该图进一步支持了方法学变异性可能与生物变异性相当的结论，对于某些属，方法学变异性超过了供体之间观察到的变异性。此外，该图重申了偏差通常是分类群特异性的，这一观察在使用β多样性等汇总指标和排序图时被掩盖。

除了比较多样性指标外，还基于属对分类学组成进行了比较，以识别所有分析中共有的属。在此分析中，任何未被赋予特定属指定的分类群都被重命名为未指定，这些分配随后与报告中注明的任何未识别分类群分组。虽然一些公司提供了允许我们确定未识别读取百分比的信息，但并非所有公司都如此。事实上，基于Bracken的NIST分析在计算相对丰度之前去除了未识别的读取。因此，尽管我们可以为某些公司显示此数据，但图3中未指定类别的缺失并不表示100%的分类群已被识别，而可能表示在计算已知分类群的相对丰度值之前，未识别的读取更早被丢弃。尽管读取深度存在巨大差异，但我们假设最常见的属将存在于所有样本中，而丰度较低的属仅在覆盖度较高的样本中可见。鉴定出的属数量范围从34到906不等，每个单一公司的范围相对较窄(图1C)。在所有9次分析中(7家公司以及NIST WMS和16S rRNA基因扩增子测序)，共鉴定出1208个独特分类群。仅在比较所有分类学概况时，所有样本中都发现了3个属(补充图1)。公司A的单个复制品具有独特的分类学概况(图3B，并在图1D中作为左侧的单个红色星号观察到)，将其从分析中移除后，常见属的数量增加到17个。这占鉴定出的总属的不到2%，或占任何给定样本的2%至43%。在大多数情况下，这些常见属构成了属的大部分(>50%的丰度，适用于公司A、C、D、G和NIST的两项分析)，或属级指定读取的大部分(公司B和F)。此外，复制品之间鉴定出的属的保守性各不相同，从公司A的低至6%到高达98%。排除公司A，同一公司复制品之间保守的属占鉴定出的样本组成的至少95%。这表明单个公司复制品之间的大多数变异性出现在低丰度存在的分类群中，并强调了经验确定的分类群纳入报告的读取截止值的重要性。

公司A的复制品1与其他公司A的两个复制品以及其他公司的复制品相比，具有显著不同的分类学概况(图3B)。这种严重的异常引发了进一步调查。与公司A的复制品1和2相比，复制品3的读取数量大约只有一半(186k对比超过400k)。这可能促成了其独特的概况，因为复制品3与复制品1和2共享的属仅有6个，对应于这些复制品总属和丰度的10%。相比之下，复制品1和2分别共享70个和71个属中的69个。值得注意的是，复制品3中的其他28个属并非独特，而是在所有公司的至少一个复制品中被鉴定出。同样值得注意的是，复制品3中未指定读取的百分比占样本的50%以上，而在复制品1和2中，未指定指定占20%多一点。这些差异引发担忧，不仅因为该概况与其他源自相同样本的复制品不同，而且因为它显然通过了公司的所有质量控制检查，导致生成报告并发送给客户。

图3提供了各公司报告的不同常见分类群的相对丰度的定性比较。为量化公司之间的协议水平，我们使用在实验室间研究中常见的贝叶斯方法对结果进行了基于分类群的分析。分析了图2中的相同18个属，并确定了所有九次测量(7家公司和NIST的两种方法)的共识值(图4和补充图2，黄色水平线)和相应的不确定性(图4和补充图2，黄色阴影区域)。根据评估的属，观察到一系列可比性(图4，补充图2)。值得注意的是，没有任何方法报告与所有18个分析属的共识相对丰度范围一致。相反，对于任何给定方法，相对丰度与共识范围重叠的属数量范围从10到16个属不等。通常，公司观察到属依赖的离群值差异，报告某些属的相对丰度较高，其他属的相对丰度较低。公司A和H是例外。公司A的两个属(Blautia和Roseburia)的值在共识范围之外，且这两个属的相对丰度均低于共识范围。对于公司H，无论测序方法如何(16S或WMS)，当相对丰度值在共识范围之外时，它们都高于共识范围。从属特定的角度看，Streptococcus是唯一一个所有9种方法的相对丰度与共识范围重叠的属。Roseburia的协议最少，只有9种方法中的3种报告的相对丰度值与共识范围重叠。方法学变异性是否大于或与生物变异性不确定(图2)似乎不是给定属协议的预测因子。对于方法学变异性大于生物变异性的属，平均观察到2.9个离群值(补充图2)，而对于生物和方法学变异性无法区分的属，平均观察到3.1个离群值(图4)。重要的是要注意，这些结果并不表示准确性，因为我们不知道这些样本的实际组成。相反，此分析显示了公司(方法)对给定分类群的协议(或缺乏协议)，并提供了量化该协议水平的方法。

健康指标在各公司之间存在差异

除了向客户提供分类学概况外，许多报告还包括健康指标，例如将客户的特定分类学概况与比较组进行比较。值得注意的是，比较组在各公司之间各不相同。例如，公司E使用其内部开发的"健康"队列数据集，而其他公司则依赖外部数据集，如人类微生物组项目或American Gut。除了提供比较数据外，一些公司还识别有益或有害微生物，并建议如何调节这些微生物的丰度以改善健康。为检查公司之间基于分类群的结果如何变化，选择了五个临床上相关的属(图5(A)Bacteroides(B)Bifidobacterium(C)Clostridium(包括Clostridioides)(D)Faecalibacterium和(E)Roseburia)。所有结果都与两家公司提供的标准进行了比较。一家公司报告了其参考人群中5个属的平均值(图5，灰色虚线)，另一家公司报告了其参考人群的四分位距(IQR)(图5，黄色阴影区域中的25%和75%边界之间)。有趣的是，除Bifidobacterium外，一家公司使用的平均值不在另一家公司使用的IQR内。所有五个属均观察到公司之间的变异性，与文库制备(16S rRNA基因扩增子测序vs WMS)没有明显相关性。此外，单个公司的精确度因分类群而异，一些分类群在复制品之间显示不可区分的点(如图5E，公司D和F的Roseburia)，而其他分类群显示变异性较大(图5B，公司D的Bifidobacterium)。

这种变异性的影响在DTC微生物组测试报告中常见的健康建议中尤为明显。最引人注目的例子是公司A的复制品3与复制品1和2之间的冲突建议。例如，淀粉分解被评估为肠道健康的指标；复制品3得分低于平均水平，而复制品1和2得分高于平均水平。在该公司评估的10个功能类别中，复制品3有7个低于平均水平，而复制品1和2仅有1个低于平均水平，并且复制品1和2的低于平均水平类别与复制品3观察到的7个不同。该公司报告复制品1和2的微生物组健康，但复制品3不健康，如果消费者收到此类报告，可能导致不必要的干预措施。虽然公司A提供了一个极端的例子，但不同公司之间观察到其他差异，包括病原体的鉴定。例如，所有评估的公司(排除仅限制在属级分析的NIST)都提供了关于Clostridioides difficile的信息；然而，在七家公司中，三家表示C. difficile存在，而其他四家报告不存在。

讨论

我们对七家微生物组测试公司的严格评估突显了困扰该行业的系统性问题：可比性差。造成这一结果的主要原因是方法学变异性。使用均质粪便参考材料能够在没有传统粪便样本中可能存在的生物或组成异质性的混杂因素的情况下进行系统评估。我们和其他人已经证明了方法学变量对微生物组宏基因组测量结果的重大影响，DTC微生物组测试公司也无法免受这些偏差源的影响。与报告的发现一致，在锁定工作流程内的可重复性(如公司内比较所示)往往非常好。需要强调的是，可重复性是评估微生物组分析时应考虑的众多因素之一。虽然公司F似乎具有出色的可重复性(图1)，但它在工作流程中也报告了非常高的未指定读取数量(图3)。不应孤立地看待评估的任何特征，这些特征的透明度对于消费者就这些测试做出明智决策非常重要。

本研究中另一个需要强调的重要因素是，粪便参考材料并不代表绝对的"真实情况"。因此，本研究无法明确确定哪些结果最接近实际的微生物组组成，这也不是本研究的目标。尽管如此，获得与真实世界样本复杂性相当的均质和标准化材料，足以评估样本处理工作流程的精确度。总体而言，本研究揭示了方法学变异性(公司间比较)的影响与生物变异性(来自8个不同供体的样本)的影响在同一数量级上。这些发现对单个个体从两家不同公司进行的测试的可比性具有重大影响，并强调了在没有经过验证的诊断证据的情况下解释和采取这些测试结果时需要谨慎。值得注意的是，尽管肠道微生物组在人类健康方面具有令人鼓舞的潜力，如最近的药物批准所示，但这些测试的诊断能力在很大程度上仍未得到充分发展，部分原因正是本研究中证明的挑战。

我们考虑的另一个关键方面是这些测试得出的诊断和预后意义的有效性。人们质疑测试服务如何确定患者的微生物组是健康还是不健康的，相关的诊断和预后生物标志物是什么，以及这些生物标志物是如何识别和验证的。这些问题很重要，因为测试结果可能导致消费者做出可能不合理或不安全的生活方式改变。许多结果是相对于平均值或"健康"微生物组报告的；然而，由于人类群体的异质性、混杂因素和多种健康微生物组定义的可能性，定义健康微生物组仍然是一个挑战。即使在评估的DTC公司中，也没有选择比较"健康"人群的标准实践。在某些情况下，公司使用内部生成的数据，要么通过测量专门为比较人群招募的队列，要么通过汇总先前客户测试样本的数据。或者，一些公司参考以前构建的数据集，如American Gut或人类微生物组项目(HMP)；这两种方法都引发担忧。使用内部生成数据的好处是，它可能是在与测试样本相同的工作流程下收集的，这应该减少方法学变异性的影响，因为工作流程内的可重复性通常非常好。然而，关于这些比较人群的人口统计学信息很少，引发了关于它们代表性的疑问。相比之下，使用American Gut等先前工作中的数据进行比较可能提供比单个公司可能获得的更多人口统计学信息和/或更大、更具代表性的数据集。然而，这种比较问题重重。如上所述，方法学变异性是数据可比性的主要障碍。除非DTC公司遵循用于生成比较人群数据的相同协议，否则观察到的差异不太可能完全归因于生物学，而可能是生物学和方法学的组合，或者仅仅是方法学。图2说明了这一点，其中与方法学相关的方差仅在分析的18个属中的1个中小于生物学。同样值得注意的是，当我们将本研究的共识值与健康志愿者数据进行比较时，一些范围/平均值重叠，但其他则不重叠(补充表1)。这些图共同强调了方法之间缺乏可重复性，从而阻止了研究之间的可比性。

通常，许多DTC微生物组测试公司的健康建议侧重于更健康的饮食习惯，这似乎无害且不太可能直接对消费者造成伤害。然而，重要的是要认识到，寻求这些测试的很大一部分人往往是那些患有慢性肠道疾病的人，他们可能一直在努力寻找有效的治疗方法。对于这些人来说，测试结果的变异性或建议结果的预期效果不足，不仅可能导致消费者对科学失去信心，还可能导致适当医疗护理的延迟。此外，一些公司建议客户开始服用昂贵的补充剂(如益生菌)，这些补充剂由同一家公司销售，且几乎没有临床证据证明其功效。

鉴于在整个微生物组行业中采用单一方法学工作流程是不现实的，可以采取几个步骤来提高结果透明度和解释性。有两个主要领域需要解决，涉及DTC测试：(1)临床有效性；(2)分析性能。关于第一点，微生物组研究的快速扩展领域正在不断改善我们对健康与微生物组之间关联的理解，但大部分数据可能是相关性而非因果性的。如果没有大量因果证据，这些测试的临床有效性将仍然是一个挑战。虽然这不是解决方案，但包括同行评审文献引用来支持任何关于健康状况的声明，或指定微生物为有益或有害，将为消费者(和临床医生)提供理解其结果合法性的手段。

有许多现成的资源可用于解决分析性能问题。目前尚不存在能够实现准确和精确测试的理想标准；然而，如本研究所示，纳入标准粪便材料可用于确定获得可重复结果所需的最小读取数量和其他确保结果有效性的最低标准。此外，虽然规模比粪便样本中存在的数百种生物小，但多家商业渠道提供包含10-20种常见肠道微生物的模拟群落，使最终用户能够评估其微生物组测量的准确性和精确度。虽然超出本讨论范围，但除了此处提到的参考材料外，还有大量关于验证宏基因组工作流程分析性能的出版物。采用参考材料并报告从这些材料中获得的分析性能，将帮助客户和其他利益相关者(包括监管机构)理解和表征给定工作流程中的偏差。行业应考虑制定指南，例如关于最低要求的共识文件，由测试公司和其他利益相关者提供意见。类似文件，如MIQE、EMMI、AsqMI和STORMS，已为其他高复杂性分子诊断测试开发。此类文件将支持DTC肠道微生物组测试的有效性，并增强消费者信心，事实上，最近由国际专家小组(包括医生和研究人员)共同撰写的一篇出版物支持这种方法。

方法

材料制备

作为微生物组计划的一部分，NIST的研究人员承担了生产全粪便肠道微生物组参考材料的挑战。虽然最终参考材料将由汇集的供体材料组成，但作为早期调查的一部分，NIST获得了来自个别供体的均质化材料。供体材料由The BioCollective(美国科罗拉多州丹佛)从多名志愿者供体处获得。所有全粪便样本均在The BioCollective获得批准的IRB协议下，在知情同意后收集。NIST进行的所有工作均经美国国家标准与技术研究院研究保护办公室审查和批准。遵循与人类研究参与者相关的所有道德法规。简而言之，将单个供体的多个粪便样本组合，与分子级水均质化以创建最终浓度为100 mg/mL的浆液。该材料被分装、冻干，并在-80°C下储存直至使用。大量均质化粪便使NIST确信，结果中的任何偏差都是由于样本处理工作流程中引入的偏差，而不是样本之间的生物差异。单个冻干粪便等分试样不足以作为起始材料；因此，为确保均质起始样本，将多个等分试样在单个50 mL锥形管中汇集，与水混合以创建由540 mg粪便组成的半固体材料用于采样。该汇集材料用于在制备后1小时内接种所有测试。

NIST对均质化全粪便样本的分析

除了服务提供商提供的分析外，标准化粪便样本还在NIST实验室中使用内部DNA提取、16S rRNA和WMS工作流程进行了分析，以更好地了解服务提供商内的可重复性与我们自己实验室内的可重复性相比如何。使用Zymo Research Quick-DNA Fecal/Soil microbe miniprep提取试剂盒(目录号D6010)按照协议进行四次重复DNA提取，使用vortex genie适配器进行珠磨，持续45分钟。在相同的DNA提取物上进行WMS和16S rRNA测序文库制备。16S rRNA文库制备如下进行：在25 µL反应中加入12 ng基因组DNA，包含2x Kapa HiFi Master Mix(Roche目录号KK2601/2)、1 µL 10 µmol/L V4 515 F/806 R引物(带Illumina接头)，在以下条件下进行：95.0°C(3分钟)，以及18个扩增循环98.0°C(30秒)、55°C(15秒)、72°C(20秒)，并在72°C下最终延伸5分钟。使用SPRIselect珠(Beckman Coulter目录号B23317/B23318/B23319)以0.8:1(珠与产物)的比例纯化16S扩增产物。使用IDT® for Illumina® DNA/RNA UD Indexes对纯化的16S产物进行索引，进行8个扩增循环，但使用与16S扩增相同的热循环条件。使用1:1(珠与产物)的比例纯化索引的16S扩增子。将纯化的索引扩增子以等量汇集，并按照MiSeq Systems Denature and Dilute DNA Libraries Guide, Protocol A(文档# 15039740 v10，2019年2月)调整为4 nM池用于测序准备。

WMS文库制备使用Covaris聚焦超声破碎进行片段化，随后使用NEB进行索引。将10 µL DNA提取物(~500-700 ng DNA)加入120 µL TE中，置于microtube AFA Fiber Pre-slit Snap Cap 6×16 mm管(Covaris目录号520045)中。使用以下设置进行样本片段化：强度：10%；占空比：10%；循环/爆发(CPB)：100；时间：1分钟。使用Tapestation分析片段化DNA，估计平均峰大小为280 bp。使用New England Biolab(NEB) NEBNext Ultra II DNA Library Prep Kit for Illumina与NEBNext Multiplex oligos for Illumina(NEB目录号E7645S/L；E6440)对片段化DNA进行索引，按照说明手册(V6.1_5/20)进行，输入50 µL片段化DNA；这对应于200-300 ng DNA输入。将纯化的索引样本以等量汇集，并按照MiSeq Systems Denature and Dilute DNA Libraries Guide, Protocol A(文档# 15039740 v10，2019年2月)调整为4 nmol/L池用于测序准备。16S和WMS测序文库均使用MiSeq Reagent Kit v3 600-cycle cartridge(MS-102-3003)运行，采用配对末端读取(原始读取可在data.nist.gov获取，BioProject ID PRJNA1364055)。

16S读取使用R(4.1.0)中的CutAdapt进行引物修剪，并使用DADA2(1.20.0)与silva数据库(v138)进行分类学分类。完整的R代码可在data.nist.gov(16S_Analysis/Dada2-16sAnalysis2024)找到。

使用FastQC评估WMS读取质量。使用bbduk(bbmap 38.90)以以下参数修剪读取：t-30, qtrim = r1, trimq = 30, minlen = 100, maxns = 0。使用Kraken2进行修剪读取的分类学分析，随后使用bracken在属级别进行分析，使用默认参数针对预构建的GTDB-tk数据库(r89)。

额外供体样本的分析

还对候选粪便参考材料的7个额外供体进行了WMS，作为评估方法学变异性与生物(供体)变异性相比的幅度的比较器。使用Qiagen PowerSoil Pro Kit对所有8个独特供体(用于所有先前分析的供体加上7个额外供体)的均质化全粪便进行两次重复DNA提取。使用Illumina NexteraXT进行WMS文库制备，随后在Illumina HiSeq X平台上进行测序(原始读取可在data.nist.gov获取)。使用上述Kraken和bracken工作流程对WMS读取进行分析。

DTC肠道微生物组测试的选择和准备

NIST进行了"在家直接面向消费者的微生物组测试套件"的网络搜索，并选择7家公司纳入研究；从每家公司订购3个套件以评估实验室内和实验室间的精确度(可重复性)。NIST员工使用个人电子邮件账户为每家公司创建账户，以便公司在测试时不知道该实验。

每个测试套件都包含说明、收集设备、样本容器和预付费运输工具。尽可能按照制造商的说明遵循采样说明。采样说明有两个显著的偏差。首先，一些公司提供专有收集设备以支持直接从排便中采样，而其他公司则指示用户从使用过的厕纸上采样；在此实验中，所有样本均直接从50 mL锥形管中采集。其次，一些公司提供指示从排便的多个部分采样，这在我们的样本类型中是不可能的。如上所述，所有套件均在样本制备后1小时内接种，然后立即包装在预付费运输工具中，并按照运输标签指定的位置(例如，USPS、FedEx)投递。

分类学概况分析

七家服务提供商中的六家为发送的每个套件(n = 3)生成了分析报告。一家服务提供商生成了2份报告并报告样本失败。发送了额外的样本，该样本也未能通过其样本QC(未披露特定类型的失败)，且未进行第三次尝试。提供商报告在内容和格式上各不相同，需要手动整理每个报告中的分类学数据以生成一致的格式。除了创建一致的文件和格式外，一些数据集提供的分类学分辨率可达到物种甚至菌株级别，而其他分类群仅识别到更高阶，例如仅到科级别。选择属级分类学分类以促进数据集之间的比较；因此，将所有物种和菌株级别指定的相对丰度汇总到属级别。将未分类分类群和未给出特定属指定的分类群的相对丰度汇总并给予未指定指定。从NIST 16S和WMS分析生成的分类学表以相同格式放置。所有生成的表都用作R中后续分析的输入文件。属表(选项卡1，所有样本的属和相对丰度)和相关元数据(选项卡2)可作为补充数据文件获取。所有其他中间表和分析及图形生成的完整代码可在data.nist.gov找到。我们无法以盲法共享实际报告，因此此版本的数据将不会公开提供。

统计和可重复性

确定常见属的方差比

公司信息可以放在典型的一向嵌套ANOVA框架中，方程为：

y_ij = μ + θ_i + ε_ij

其中y_ij表示观察到的相对丰度，μ是总体均值，θ_i表示第i家公司的效应，ε_ij表示嵌套在每家公司内的复制品之间的残差变异。我们可以使用所有公司的信息找到方法学变异性(σ_a^2)的合理估计，使用公司H的信息找到生物变异性(σ_e^2)的合理估计。为定量验证图1中MDS图的视觉效果，我们可以使用分层贝叶斯模型对σ_a^2/σ_e^2进行推断分析，该模型具有通常不偏向的先验，但保持在数据的已知限制内。可在data.nist.gov获取在R中运行此模型的完整代码。

公司有18个共同属，因此可以为这18个属中的每一个拟合此模型，以创建方差比的95%可信区间。有95%的置信度，当整个区间高于1时，可以说方法学变异性大于生物变异性。当整个区间低于1时，可以说生物变异性小于方法学变异性。当区间跨越1时，无法确定两种变异性来源之间的统计差异。我们不对所有公司中不存在的属进行此分析——未找到属并不一定意味着它们不存在，只是它们低于某个测量阈值，并且已经讨论了分析复杂性。