在这一系列文章的第三篇中,我们介绍了Core GRADE(Grading of Recommendations Assessment, Development and Evaluation)方法的核心内容,重点在于评估证据的确定性。本篇文章特别关注如何处理结果的不一致性。
通过不一致性,我们指的是研究之间未解释的结果差异。特别是当这种差异足以影响临床实践的推断时,我们尤为关注。在讨论不一致性时,Core GRADE用户必须首先理解他们应该关注的效果度量。对于二分类结局,应关注相对效应(如风险比或优势比),而对于连续结局,则应关注绝对效应(如均值差)。接下来,他们必须为可能遇到的显著不一致性预先生成假设。然后,他们需要审查结果,决定是否存在严重不一致性,并确定这些预先生成的假设是否能解释不一致性。如果经过考虑这些假设后,仍存在大量无法解释的不一致性,他们将降低证据的确定性等级。本文将讨论每个步骤。
选择适当的效应度量来评估不一致性
二分类结局:相对效应与绝对效应的变异性
正如本系列第一篇文章所指出的,相对治疗效果很少因患者亚组(例如老年人和年轻人、男性和女性、病情较轻和较重的患者)而不同。然而,由于这些患者特征通常与基线风险(即对照组发生结局的概率)的显著差异相关,即使在相对治疗效果跨这些患者群体保持恒定时,绝对治疗效果也会显著不同。
图1展示了这种情况。这里,相对风险降低在低、中、高风险组中保持恒定,均为33%。由于基线风险的显著差异,治疗组和未治疗组之间的风险差异变化很大,从高风险患者的10%到低风险患者的1%。
尽管对患者来说,风险差异比相对风险更重要,但随机试验和荟萃分析的作者通常会突出相对而非绝对效应。他们这样做是因为相对风险的一致性以及风险差异的预期变异性。因此,相对效应的一致性和绝对效应的变异性是Core GRADE摘要表中通过应用相对风险估计不同相关患者组的风险差异的原因,也是指南作者可能会为低、中、高风险个体提供不同治疗建议的原因。最后,由于绝对效应的不一致性普遍存在,而相对效应的不一致性很少见,我们关注的是相对效应而不是绝对效应的不一致性。
连续结局
连续结局通常以绝对效应测量,因此在考虑不一致性时,通常没有选择相对效应的选项。例如,疾病持续时间、住院时间、功能状态或生活质量通常以均值差来评估。连续结局的均值差在各研究之间的不一致性可以像二分类结局的相对效应一样降低证据的确定性。
Core GRADE准备应对不一致性的方法
在本节中,我们将讨论当思考可能的结果不一致性时,Core GRADE用户如何制定计划以最好地处理最终可能发现的不一致性。一般来说,在观察二分类结局的相对效应和连续结局的绝对效应时,可能会有几种原因导致不一致性。这些包括随机误差和人群、干预、比较和结局(PICO)元素的差异。假设可能能够解释这些差异——这是在准备可能的大不一致性时的希望——或者它们可能无法解释。如果它们能够解释不一致性,Core GRADE用户将为每个亚组提供单独的证据摘要,并对每个亚组内的不一致性做出判断。如果假设不能解释差异,未解释的效果变异性会降低证据的确定性。
PICO元素的变异性
Core GRADE对证据确定性的评级适用于严格的系统综述总结的证据体。Core GRADE过程始于构建结构化临床问题。纳入特定问题的研究必然会在招募的患者、选择的干预和比较方面以及结局的测量方式上有所不同,且这种差异通常是显著的。
Core GRADE用户可能会直觉地认为这种变异性(即PICO元素的不一致性)会损害系统综述证据的确定性。然而,这很少是实际情况。事实上,如果研究之间的效果相似,PICO元素的变异性会增强合并效应在更广泛临床环境中的适用性。如果研究之间的效果不同,PICO元素的差异提供了探索可能的不一致性结果来源的机会。因此,PICO元素的不一致性并不会降低对证据的信心。
可能具有不同干预效果的三个亚组选项
当反思干预效果可能在患者亚组(例如,效果可能在老年人和年轻人之间不同)或干预亚组(例如口服与静脉抗生素治疗)之间存在差异时,综述作者面临一个潜在的问题。在PICO中选择较窄范围的亚组总是会牺牲适用性,而且通常会降低精确度。选择更广泛的患者和干预亚组将增强普遍性和精确度,但如果效果差异显著,则会带来不当合并的风险。
为了解决这个问题,Core GRADE用户必须区分三种情况:一种是没有理由怀疑亚组间效果差异;一种是有信心认为亚组间效果不同;另一种是有充分理由怀疑亚组差异但不确定。
以两个不同的年龄组为例:年轻人和老年人。以下是三种情况及相应的行动:
- 以前的研究很少支持老年人和年轻人之间效果差异的可能性。在这种情况下,综述作者会选择一个广泛的年龄范围作为PICO,结果将适用于这两个年龄组。
- 以前的研究给出了有理由相信老年人和年轻人之间的相对效果不同的依据。因此,可以选择一个狭窄的年龄范围作为PICO(例如,老年人)或创建两个单独的PICO和建议集,一个针对老年人,另一个针对年轻人。
- 以前的研究合理地表明老年人和年轻人之间的效果可能存在差异,但尚不确定。那么,应选择一个广泛的年龄范围作为PICO,并进行亚组分析或元回归,以探讨年龄差异可能产生的影响。
表1总结了在PICO构建过程中考虑亚组时的三种情况,并提供了每个情况的例子。
我们建议综述作者为了最大化精确度和普遍性,应广泛构建他们的PICO。然而,在这样做的同时,他们必须准备好应对研究结果不一致的可能性。一种准备方法是选择第三种情况。我们现在详细介绍如何处理第三种情况。
需要带有指定方向的先验假设
正如本系列第一篇文章所指出的,准备应对结果不一致的可能性涉及生成少量精心选择的先验假设来解释这种不一致性。当根据患者的不同特征(例如,老年人与年轻人、病情更严重与较轻的患者)或干预措施的不同(例如,治疗时间较长与较短)观察干预与对照之间的效果差异时,就会出现亚组效应。因此,作者可以根据不同的患者群体或干预措施假设亚组效应。
这些假设应基于先前的证据(例如,来自相关试验、荟萃分析或队列研究)或对基础生物学的深入理解,并应包括亚组效应的方向(例如,不仅假设不同年龄段的效果可能不同,还假设老年人的效果将大于年轻人)。提出超过少数(理想情况下不超过三个)定向假设会增加偶然发现(虚假关联)的可能性,从而削弱任何亚组效应的可信度。
例如,在关于结核病和HIV共诊断患者何时开始抗逆转录病毒治疗的系统综述中,作者在考虑死亡率时只提出了一个先验假设。他们假设效果可能因CD4 T细胞计数的不同而不同,使用阈值<0.050×10^9细胞/L对比>0.050×10^9细胞/L。他们的假设基于先前证据,即较低的CD4 T细胞计数患者免疫反应不良的发生率较高。人们可以合理地推测亚组效应的方向(早期抗逆转录病毒治疗对低CD4 T细胞计数患者更不利)。实际上,结果表明,如果早期治疗确实有益,它更可能出现在低CD4 T细胞计数患者中(交互作用P=0.12)。这个例子突显了综述作者通过指定一个基于相关证据的单向亚组假设来准备应对可能不一致结果的方式。该例子还突显了如果没有进行亚组分析,Core GRADE用户在得出亚组间效果差异的结论之前应谨慎。
预测亚组效应方向的能力为决定第一种情况(广泛的PICO,无亚组分析)和第三种情况(广泛的PICO和亚组分析)提供了有用的准则。如果不能自信地指定潜在亚组效应的方向,应选择第一种情况而不是第三种。鉴于我们建议的少量令人信服的亚组假设,我们不鼓励事后探索可能的亚组效应。
判断严重不一致的标准
在解决了Core GRADE用户如何计划应对结果不一致的问题之后,我们现在将讨论他们如何实施该计划(见图2)。在接下来的三个部分中,我们将描述Core GRADE用户如何确定不一致性是否足够严重,以至于需要考虑降低证据的确定性。如果他们确实发现了重要的不一致性,他们应该参考先验假设来看是否可以解释这种不一致性——这个过程将包括评估任何已识别的可能亚组效应的可信度。随后的部分将讨论子组解释结果变异性的主题。如果只有一个符合条件的研究存在,Core GRADE用户不会降低不一致性,但如果作者提供了数据,他们仍然可以解决亚组效应的可能性。
来自森林图的三个视觉标准
考虑图3中的假设证据体。当考虑研究结果是否相似或不同时,大多数观察森林图的人都会很快得出结论,即图的上半部分结果是一致的,而下半部分结果是不一致的。支持这些推论的结果方面包括点估计的相似性与差异性、置信区间的重叠程度以及点估计与确定性评级阈值的关系。
点估计 ——当研究之间的点估计存在显著差异时,Core GRADE用户更倾向于考虑降低不一致性。在图3中,上半部分的点估计是相似的,范围从0.71到0.76。点估计的相似性表明无需考虑降低不一致性。相比之下,在图3的下半部分,两项研究表明显著的治疗效果——相对风险降低超过50%,而另外两项研究表明适度的危害,相对风险分别增加了17%和25%。两对研究的点估计之间的巨大差异表明应考虑降低不一致性。
置信区间重叠 ——如果包含的研究的置信区间没有显著重叠,Core GRADE用户更倾向于降低不一致性。在图3的上半部分,四项研究的置信区间大部分重叠。这种重叠表明无需考虑降低不一致性。相反,在图3的下半部分,前两对研究的置信区间完全不重叠。这为降低不一致性提供了强有力的依据。
点估计与确定性评级阈值的关系 ——偶尔,Core GRADE用户会发现使用前两个标准时存在明显的不一致性,但点估计主要位于选定阈值(空值——即干预和对照之间没有差异)或最小重要差异(MID)的同一侧。在这种情况下,他们不太倾向于降低不一致性。
无论使用哪个阈值,在图3的上半部分,所有研究都位于阈值的一侧(无需考虑降低不一致性)。而在下半部分,成对研究位于任一阈值的相反一侧,其中一对显示益处,另一对显示危害,因此需要考虑降低不一致性。在得出重要不一致性的结论时,置信区间的不重叠至关重要。
虽然如前所述,我们可以使用相对风险进行初步的不一致性评估,但Core GRADE用户必须仅在绝对风险上建立MID。在这个假设示例中,作者已经考虑到结局的基线风险,建立了大约15%的相对风险降低将转化为1%的最小重要绝对效应。补充附录1描述了这一过程。
应用视觉标准:选择阈值如何影响不一致性的判断
关键的不一致性判断标准——点估计的相似性、置信区间的重叠程度以及结果与所选确定性评级阈值的关系——同样适用于连续结局。考虑图4,该图描绘了一项系统综述的结果,评估局部浸润镇痛对全膝关节置换术后疼痛的影响(改编自我们在之前的GRADE文章中用于说明这些标准的图)。
考虑如果系统综述的作者选择根据零假设来评定其确定性。汇总估计显然排除了零假设,除了一项研究外,所有研究的点估计都支持这一推断。因此,没有理由降低不一致性。
然而,如果综述作者选择根据MID来评定其确定性,并选择了10 mm的值。现在,五项研究显示的值低于阈值,八项研究显示的值等于或高于阈值。这种不一致性削弱了汇总估计(14 mm)所暗示的重要效应,并需要降低不一致性。
虽然这个例子强调了Core GRADE用户应关注点估计与确定性评级阈值的关系,但在点估计存在显著差异且置信区间不重叠的情况下,他们很少会发现令人信服的理由来援引这一附加标准。
统计评估的一个标准及可能两次降低不一致性
统计标准I²描述了效应估计的变异性中由异质性而非抽样误差(机会)引起的百分比,并可能补充三个视觉标准。最低的I²值为0%,告诉我们机会很容易解释研究之间的差异——图3的上半部分就是这种情况。随着I²接近最高可能值100%,仅靠机会解释观察到的变异性变得极不可能。这在图3的下半部分中是真实的,其中I²为93%。
然而,I²可能具有误导性。特别是,如果纳入的研究具有狭窄的置信区间,相关的I²可能会被误导性地放大。此外,如果点估计大多位于确定性评级阈值的一侧,高的I²将无关紧要。例如,在图4中,高I²值为95%,表明巨大的不一致性。然而,当使用零假设作为确定性评级的目标时,13项研究中有12项显示均值差有利于干预,因此可以得出没有问题的不一致性。
综述作者自然希望有硬性规则来解释I²。该统计量的局限性使得这样的规则存在问题。我们所能做的是建议I²值<30%时很少看到严重的不一致性,而当I²值上升超过该值时,可能需要降低确定性的需求增加。
最后一个问题是考虑两次降低不一致性。虽然这是一个理论上的可能性,但我们发现有足够的理由两次降低不一致性的实例非常罕见,因此不必担心Core GRADE用户。
基于先验假设的明显亚组效应
主张亚组效应的举证责任在于主张者
我们已经指出,相对效应在很大程度上往往在亚组之间是相似的,测试大量亚组假设会导致很高的虚假发现风险。总的来说,Core GRADE用户应对亚组效应持怀疑态度,主张亚组效应的人负有举证责任。然而,真正的亚组效应有时确实存在,Core GRADE用户需要方法来识别这些实例并将其与虚假关联区分开来。
判断亚组效应可信度的标准
近50年来,方法学家和统计学家一直在撰写如何区分可信和虚假的亚组声明的文章。以下我们将这些调查的关键教训应用于一个例子。
在探索亚组效应时,作者假设显示β阻滞剂降低心率更多的随机试验会显示出更大心衰患者死亡风险的相对降低。作者发现了一个明显的效应修饰:每减少5次/分钟的心率,相应地发现死亡风险降低18%。问题来了:这是真正的还是虚假的亚组效应?
也许在解决假设的亚组效应时最重要的单一问题是,偶然性是否可以解释亚组之间效果的差异。适当统计检验的P值越低——称为交互作用检验——偶然性解释的可能性就越小,假设的亚组效应就越可信。
然而,如果作者没有预先指定亚组分析,进行了大量的亚组分析,或者仅报告了选定的结果,这一统计标准可能会受到严重破坏。违反这些标准中的任何一个都会大大增加偶然性而非真实亚组效应导致明显组间差异的可能性,从而使与交互作用检验相关的P值变得远不可信。在这种情况下,作者事先指定了亚组分析,但测试了12个假设,交互作用的P值为0.006。
最近,一组方法学家开发了第一个正式的工具,用于评估效应修饰分析的可信度(ICEMAN,www.iceman.help)。该工具涵盖了我们讨论的所有问题以及其他几个问题,并且易于应用。补充附录2呈现了完整的ICEMAN相关评估,导致作者的亚组假设的可信度为中等。
处理亚组可信度探索的结果
如果Core GRADE用户得出假设的亚组效应的可信度很低或非常低的结论,他们将仅为所有研究的摘要呈现结果,并对整个群体的不一致性进行评级。然而,中等或高度可信度的结论则需要为每个亚组创建单独的PICO问题,分别呈现每个亚组的结果,分别考虑降级的所有五个领域,并根据每个效应估计得出单独的结论。
接近低度和中度可信度阈值之间的结果带来了挑战。一个选项是在摘要表中同时呈现总体和亚组结果。另一个选项是在摘要表中仅呈现总体和亚组结果之一,并在文本中简要总结未选择的那个。无论选择哪种方式,作者都应在文本中承认可信度评估的接近性。
在β阻滞剂降低心衰患者死亡率的例子中,可信度评估结果处于中等可信度范围内。因为效应修饰因子是连续变量,作者选择使用更强大的连续元回归方法进行分析,而不是任意阈值。因此,结果表明,心率降低效果越大,死亡率降低幅度越大。中等可信度的效应表明患者及其临床医生共享决策的可能结果:使用剂量较高的β阻滞剂,以安全地大幅降低患者的心率。
结论
当Core GRADE用户构建既涵盖患者又涵盖干预措施的宽泛PICO框架时(正如我们所认为的那样),他们必须为可能出现的结果不一致做好准备。他们通过识别先验假设来解释不一致性,包括假设的方向。
在决定了亚组假设后,Core GRADE用户将解决评估不一致性的关键标准。通过检查森林图,他们注意到点估计的差异程度、置信区间的重叠程度以及点估计相对于确定性评级目标的位置。点估计的变化越大,置信区间的重叠越少,存在有问题的不一致性的可能性就越大。然而,决策需要考虑所选的确定性评级阈值:无论是零假设还是最小重要差异(MID),在置信区间几乎不重叠的情况下,点估计落在阈值两侧的程度越大,存在有问题的不一致性的可能性就越大。
有问题的不一致性需要确定先验假设是否可以解释这种不一致性。判断任何明显的亚组效应可信度的关键标准包括分析是基于组内比较还是组间比较、交互作用检验的P值,以及分析是否基于少数具有指定方向的先验假设。如果亚组效应证明是可信的,Core GRADE用户将为每个亚组提供单独的证据摘要,并相应地评估证据的确定性。如果不是,他们将评估所有符合条件的研究之间的不一致性。
(全文结束)