阿尔茨海默病试验中分位数聚合的方法学考量 - 认知障碍

阿尔茨海默病试验中分位数聚合的方法学考量Methodological Considerations for Quantile Aggregation in Alzheimer Disease Trials | Dementia and Cognitive Impairment | JAMA Neurology | JAMA Network

环球医讯 / 认知障碍来源：jamanetwork.com美国 - 英语2026-05-24 12:30:47 - 阅读时长5分钟 - 2336字

本研究深入分析了阿尔茨海默病临床试验中分位数聚合方法的统计学局限性，通过模拟数据和A4研究实际数据表明，该方法会显著夸大淀粉样蛋白与认知变化之间的关联（在模拟中关联强度被放大29倍），并因忽略治疗分配信息而将随机试验转变为易受混杂影响的观察性分析，可能导致对治疗机制和替代终点的错误解读；研究强调在评估淀粉样蛋白减少作为临床获益替代指标时，应优先采用保留随机化信息的因果推断方法，而非依赖此类聚合技术，这对当前阿尔茨海默病治疗研发方向具有重要启示意义。

抗淀粉样蛋白试验中，淀粉样蛋白减少是否是临床获益的适当替代结局指标？这个问题对当前结果的解释和未来试验的设计至关重要。本质上嘈杂的认知测量使回答这个问题变得复杂，促使人们使用替代分析方法。最近，分位数聚合方法通过根据治疗后淀粉样蛋白负荷而非随机分配重新分组试验参与者，在TRAILBLAZER-ALZ 2的数据中发现了明确的淀粉样蛋白-认知关系。这种用于解读试验数据的统计特性和局限性尚未得到充分表征。

我们使用模拟数据和公开可用的随机试验数据评估了分位数聚合方法。在这两种情况下，分析都严格遵循了近期工作中使用的5个步骤：将治疗组和对照组参与者合并为单一队列，根据正电子发射断层扫描的治疗后淀粉样蛋白负荷对个体进行排名，将参与者划分为分位数，通过中位淀粉样蛋白和平均认知变化对每个分位数进行总结，并使用线性回归和决定系数(R²)估计跨分位数的淀粉样蛋白-认知关联。结果与相同数据的非分位数聚合（个体水平）分析进行了比较。

我们使用1600名试验参与者（800名治疗组；800名对照组）的模拟试验数据评估了该方法的特性。模拟条件选择以反映近期试验结果和近期分析中报告的淀粉样蛋白-认知关联的大小。（模拟细节可在补充材料1中找到。）还探索了分析决策（包括分位数数量或每个分位数的参与者数量）对这些数据的影响。

我们使用来自抗淀粉样蛋白治疗无症状阿尔茨海默病（A4）研究的个体水平数据重复了分析，这是一项3期随机试验，显示solanumab既无认知获益也无淀粉样蛋白清除。基于模拟中的发现，使用了每个分位数约160名参与者的分位数，以允许与近期结果进行比较。A4/LEARN数据包可供符合条件的研究人员通过简短申请获取。本工作中对其使用在补充材料1中有详细说明。

本工作使用公开可用的去标识化数据，并被布朗大学机构审查委员会确定为豁免。它遵循了模拟研究和说明性二次分析相关报告指南的要素，以及《美国医学会杂志》对透明统计报告的建议。

方法

结果

在模拟中，个体水平分析显示治疗后淀粉样蛋白与认知变化之间存在弱关联(R² = 0.03；95%置信区间，0.02-0.05)。在分位数聚合下，关联显著增加(R² = 0.87；95%置信区间，0.63-0.97)（图1A）。R²随分析决策而显著变化，并随着每个分位数的参与者数量(N/Q)增加而增加（图1B）。

图1. 模拟：展示聚合程序及其对数据表示和回归统计影响的图表

A. 治疗组和对照组的个体水平结果数据显示为未聚合（左）、合并试验组并构建分位数后（中），以及呈现为分位数水平摘要并进行典型轴缩放（右）。B. 相同的个体水平数据被聚合为不同大小的分位数（改变每个分位数的参与者数量）。大黑点表示分位数水平摘要值，虚线表示普通最小二乘回归拟合。R²值表示拟合模型在每种聚合方案下似乎能解释的认知变化方差比例。所有面板都来自相同的基础数据；视觉外观和回归统计的差异仅源于所选择的分位数定义。

在A4研究中，个体水平分析显示治疗后淀粉样蛋白与认知变化之间存在弱关联(R² = 0.04；95%置信区间，0.00-0.07)。相比之下，使用每个分位数约160名参与者（如先前报告）的分位数聚合产生了近乎完美的关联(R² = 0.99；95%置信区间，0.99-1.00)（图2）。

图2. 将分位数聚合应用于抗淀粉样蛋白治疗无症状阿尔茨海默病(A4)研究数据并与TRAILBLAZER-ALZ 2比较的图表

A. 经分位数聚合（左）和原始数据（右）表示的solanumab A4试验公开可用的个体水平数据。每个分位数的参与者数量(N/Q) = 162，选择该值以匹配TRAILBLAZER-ALZ 2的近期分析。为提高可读性，原始数据增加了垂直抖动(0.2)。B. TRAILBLAZER-ALZ 2数据的分位数聚合表示(N/Q = 158)，从原始手稿复制。重新着色分位数摘要点以表示报告的分析结构，并重新标记轴以提高清晰度。TRAILBLAZER-ALZ 2的个体水平数据不可用。

讨论

这些发现说明了所述分位数聚合方法在评估随机试验数据中机制或替代关系时的结构性局限性。

首先，如模拟所示，分位数聚合是一种强大的平滑工具；在嘈杂数据中，大分位数（大N/Q，如图1B所示）通常会产生高的R²值。然而，这样的R²值是聚合过程本身的统计假象，掩盖了患者水平的变异性，并不代表基础数据中淀粉样蛋白-认知关系的强度。在我们的模拟中，聚合使表观关联的强度膨胀了29倍。

其次，所述方法排除了治疗分配信息，有效地将随机试验转换为易受混杂因素影响的观察性分析。以这种方式分析时，A4研究数据显示淀粉样蛋白与认知之间存在强关联——尽管在A4中证明了solanumab治疗既没有认知获益也没有淀粉样蛋白清除，并且有证据表明治疗减少淀粉样蛋白积累可能与更差的认知相关。由于该方法评估的是跨分位数摘要的疾病进展与疾病生物标志物之间的生态学关联，它通常会产生明显强烈的关系——即使在没有治疗获益的情况下。因此，这种方法不能为治疗机制或替代终点有效性提供因果可解释的信息。

临床试验中的个体水平数据为明确的因果推断提供了难得的机会。分位数聚合可能在探索性分析中有其作用，但在用于论证因果、机制或替代终点声明时需要谨慎。本工作的局限性在于它展示了聚合方法的缺点，而没有探索替代方案。存在用于评估试验中机制和替代性的既定方法：因果中介分析、工具变量技术和组内分析在此设置中是适当的。这些方法明确保留随机化，保留有意义的患者水平变异性，并允许因果解释。淀粉样蛋白减少是否是临床获益的适当替代结局指标仍不确定，需要使用因果可解释的方法进行评估。

【全文结束】