意大利对新药创新性的评估 - 创新药物

摘要

目标： 自2017年4月起，意大利药品局(AIFA)已批准新标准，用于定义具有创新适应症的任何新药品。本研究的目的是分析根据新方法进行的创新性评估活动，估计用于定义创新性的每个标准的权重，并评估新方法在一致性和可重复性方面的效果。

方法： 对2017年4月至2021年1月期间在AIFA网站上发布的最终药品创新性评估报告进行了回顾性分析。使用描述性统计、卡方检验(在满足条件时)或Fisher精确检验来探索药品特征与创新性状态之间的关联以及三个标准之间的关联。描述了决策过程的概况及其与创新性响应的关系。为评估每个标准在预测创新性状态中的权重，应用了分类树(CT)算法。

结果： 总体而言，在发布的109份药品报告中，37份(33.9%)被认定为完全创新，29份(26.6%)被认定为有条件创新，而43份(39.4%)报告未认可创新性。考虑到决策过程的三个标准，附加治疗价值是唯一与药品创新程度在统计学上相关的标准(p < 0.001)。治疗需求和临床证据质量在统计学上相关(p = 0.008)，尽管仅观察到轻微关联。根据应用的分类树(CT)模型，附加治疗价值是在预测创新性状态时最重要的变量，准确率达到89.4%。孤儿药与非孤儿药之间，以及肿瘤药物与非肿瘤药物之间未发现差异。

讨论： 附加治疗价值是定义新药品创新性状态的多维度方法中最重要的标准。在治疗需求和证据质量之间发现了轻微关联。总体而言，相似的决策模式带来相同的创新性状态评估，表明决策之间具有一致性和可重复性。

引言

目前，评估新药品的创新性和透明披露决策过程信息对全球许多监管机构和卫生组织来说都是一个挑战(1, 2)。

2017年4月，意大利药品局(AIFA)批准了定义药品创新性的新标准。根据新方法，如我们之前论文所述(3)，用于定义药品创新性的决策过程考虑了三个标准：治疗需求、附加治疗价值和临床证据质量，后者基于GRADE(评估、制定和评价建议的分级)方法(方框1)。

方框1：AIFA评估药品创新程度的标准

标准	水平
治疗需求	最高(无替代治疗选择)
	重要(有替代治疗选择，但对临床相关结果无影响)
	中等(有替代治疗选择，对临床相关结果影响有限，和/或安全状况不确定或不令人满意)
	较差(有替代治疗选择，对临床相关结果影响大且安全状况令人满意)
	无(有替代治疗选择，能够减缓疾病进展且安全状况令人满意)
附加治疗价值	最高(比替代治疗选择(如适用)在临床相关结果上疗效更佳，理想情况下能治愈疾病或改变其自然病程)
	重要(基于临床相关结果疗效更佳，或以下任一选项：i)该药物可降低严重致残或危及生命的并发症风险，ii)该药物与替代治疗选择相比具有更好的风险/效益比，iii)该药物可避免使用高风险临床程序，iv)该药物可在患者亚群中显著改变疾病自然病程，v)该药物可提供临床相关的附加值，例如在生活质量和无病间隔方面，与现有治疗选择相比)
	中等(疗效略优或在某些患者亚群中疗效改善，或基于替代终点且对生活质量影响有限。在缺乏研究比较的情况下可接受时，应考虑显示与现有治疗选择相比相对疗效的证据)
	较差(仅对非临床相关结果疗效更佳或效果幅度小。与现有治疗选择相比，该药物提供微小益处(如有利的给药途径))
	无(与替代可用治疗选择相比无附加治疗益处)
临床证据质量*	高、高
	中等
	低
	非常低
创新性状态	完全(创新)、完全(创新)
	有条件(有条件创新)
	无(非创新)
商业影响	•通过"创新药物基金"资助 •无补偿机制 •立即纳入区域药物处方集 •受益期最长36个月
	立即纳入区域药物处方集
	无益处

*孤儿药即使临床证据质量低或非常低，当其他两个标准被评估为最高或重要时，仍可被视为创新。(改编自(3))

与药品特定治疗适应症相关的最终判断是基于每个标准评估水平的组合概况形成的。总体评估过程使新药品根据特定治疗适应症获得以下三种创新状态之一："完全创新"、"有条件创新"或"非创新"。评估过程由AIFA的科学与技术委员会(Commissione Tecnico-Scientifica, CTS)执行，该委员会在决定新药品(或新治疗适应症)的报销和价格时做出最终决定；对于每次评估，都会在机构网站上公开提供一份完整报告，解释最终决定的理由(4)。

AIFA的模型结构灵活，确保CTS小组成员考虑做出决定的所有重要因素，帮助他们就每个标准的最佳可用证据进行讨论，并确定分歧原因。系统、严格和透明的评估过程，结合明确的决策标准，如AIFA模型，旨在解决医疗保健决策过程中最常见的限制，如缺乏一致性和透明度(5)。此外，AIFA选择在药品创新性评估过程中使用GRADE方法评估临床证据质量，这可能有助于早期识别市场批准时可用临床证据与患者对快速获取此类创新疗法的需求之间的差异。

本研究的目的是分析AIFA的CTS评估报告，根据新方法评估用于定义药品创新性的每个标准的权重、三个标准之间的潜在相互依赖性、决策过程中出现的最终决策之间的一致性，以及它们预测最终决策的能力，以了解该框架的工作原理。

方法

数据和关注变量

收集并分析了2017年4月至2021年1月期间在AIFA网站上发布的关于特定治疗适应症的药品创新性评估的最终报告。从每份报告中提取并制表了以下数据：药品名称、治疗适应症、药品类型(如肿瘤或孤儿药)、分配给每个标准的等级(治疗需求、附加治疗价值、临床证据质量)，以及关于药品创新性的最终决定("完全创新"、"有条件创新"或"非创新")。

统计分析

分类数据总结为数字(n)和频率(%)。描述了决策过程的概况及其与药品创新性决策的关系，以调查三个领域对最终决策的影响。

还比较了孤儿药与非孤儿药以及肿瘤药物与非肿瘤药物，以评估孤儿药状态或肿瘤适应症是否影响预测药品创新性的标准权重。

使用卡方检验(当条件满足时)或Fisher精确检验评估分类变量之间的关联。此外，计算了Cramér的V值，以评估用于定义药品创新性状态的三个标准之间的关联强度。为评估每个标准在预测创新性状态中的权重，应用了分类树(CT)算法。CT是一种非参数模型，使用树结构探索一组潜在解释变量之间的关系，通过开发决策规则来预测分类响应变量，如创新性状态。分类树包含三种类型的节点：(1)根节点，包含所有数据的树的顶部节点；(2)分裂节点，将数据分配给子组的节点；(3)终端节点，最终决定(结果)(6, 7)。

树拟合过程首先找到"最佳"将统计单位分为两组的协变量。根据特定的拟合优度标准度量，"最佳"分割被定义为导致关于响应变量最同质子组的分割。然后，该过程将观察结果分为两个结果组，并在每个组中重复分割过程，这一过程称为递归分区(8)。具体而言，在当前分析中，CT使用递归分区分类模型执行，该模型通过一个分为两个阶段的程序识别最佳树：第一阶段看到树的增长—根据最大降低不纯度(在本例中为Gini指数)；随后通过交叉验证方法修剪该树，即最小化竞争子树之间的交叉验证错误分类率(用于修剪树的复杂度参数(CP)固定为0.01)(9–13)。计算了混淆矩阵和正确分类率，以评估模型预测性能。所有分析均使用R版本3.5.2(14)进行。特别是，使用"rpart"包实现CT算法(15)。双侧p值小于0.05被认为具有统计学意义。

结果

总体而言，在发布的109份药品报告中，37份(33.9%)被认定为完全创新，29份(26.6%)被认定为有条件创新，而43份(39.4%)报告未认可创新性(表1)。总体而言，67份(61.5%)报告涉及肿瘤适应症(24份创新，20份有条件创新，23份非创新)，41份(37.6%)报告涉及孤儿适应症(16份创新，11份有条件创新，14份非创新)；24份(22.0%)报告同时涉及肿瘤和孤儿适应症(10份创新，6份有条件创新，8份非创新)。虽然大多数肿瘤或孤儿药物被认定为完全或有条件创新，但大多数非肿瘤和非孤儿适应症被评估为非创新(32.6%)。

表1：考虑药品创新程度的药品标准特征

	完全创新		有条件创新		非创新†		p值*
	n=37		n=29		n=43
肿瘤药物	24	64.9	20	69.0	23	53.5	0.363
孤儿药物	16	43.2	11	37.9	14	32.6	0.616
肿瘤和孤儿药物	10	27.0	6	20.7	8	18.6	0.645
非肿瘤和非孤儿药物	7	18.9	4	13.8	14	32.6	0.155
治疗需求							0.081
最高	5	13.5	4	13.8	4	9.3
重要	17	45.9	7	24.1	12	27.9
中等	15	40.5	18	62.1	22	51.2
较差	0	0.0	0	0.0	5	11.6
无	0	0.0	0	0.0	0	0.0
附加治疗价值							<0.001
最高	1	2.7	0	0.0	0	0.0
重要	31	83.8	0	0.0	1	2.6
中等	5	13.5	29	100.0	5	13.2
较差	0	0.0	0	0.0	29	76.3
无	0	0.0	0	0.0	3	7.9
临床证据质量							0.451
高	10	27.0	3	10.3	5	11.6
中等	19	51.4	18	62.1	24	55.8
低	7	18.9	6	20.7	9	20.9
非常低	1	2.7	2	6.9	5	11.6

*当条件满足时，应用卡方检验或Fisher精确检验来评估分类变量之间的关联。

†对于五个观察结果，附加治疗价值为"无法测试"，因此归类为NA

数据总结为数字(n)和频率(%)。

考虑到决策过程的三个标准，治疗需求与创新性状态在统计学上不相关；然而，完全创新报告比其他两组(有条件创新(24.1%)和非创新(27.9%))更频繁地表现出"重要"的治疗需求(45.9%)。相反，有条件创新评估报告"中等"治疗需求(62.1%)的频率高于非创新(51.2%)和完全创新(40.5%)报告。此外，"较差"的治疗价值仅在非创新报告中观察到(11.6%)。附加治疗价值是唯一与药品创新程度在统计学上相关的标准(p < 0.001)。特别是，在分析的最终报告中，"重要"的附加治疗价值在认可完全创新性的适应症中更频繁地观察到(83.8%)；附加治疗价值被定义为"中等"适用于100%的有条件创新适应症，而非创新适应症的组中观察到更高比例的"较差"(76.3%)附加治疗价值水平。

此外，在评估过程中比较孤儿药和非孤儿药在每个标准的权重时未发现差异(补充表1)，肿瘤药物和非肿瘤药物之间也是如此(补充表4)。对于这两类药物，附加治疗价值仍然是唯一与药品创新程度在统计学上相关的标准(p < 0.001)。

临床证据质量在大多数情况下被定义为"中等"，独立于药品创新程度。然而，完全创新适应症比有条件创新(10.3%)和非创新(11.6%)适应症更频繁地呈现"高"质量水平(27.0%)，相比之下，非创新药物比完全和有条件创新药物更频繁地呈现临床证据质量的"非常低"水平(11.6%)(分别为2.7和6.9%)。如表2所示，治疗需求和临床证据质量在统计学上相关(p = 0.008)，尽管仅观察到轻微关联(Cramér的V：0.25)。将孤儿药与非孤儿药以及肿瘤药与非肿瘤药进行比较时，治疗需求与临床证据质量之间的关联不显著(补充表2、5)。

表2：在定义新药创新性时多维方法中使用的标准之间的关系

		附加治疗价值
	n	最高
治疗需求	最高	1
	重要	0
	中等	0
	较差	0
	无	0
治疗需求	n	最高
临床证据质量	高	1
	中等	4
	低	6
	非常低	2
附加治疗价值	n	最高
临床证据质量	高	0
	中等	1
	低	0
	非常低	0

Cramer V = 0.24; p = 0.224. Cramer V = 0.25; p = 0.008. Cramer V = 0.20; p = 0.517. 数据总结为数字(n)。使用卡方检验计算Cramer's V的p值。

分析用于定义药品创新性的三个标准的所有可能组合显示了37种不同的评估概况；最常见的组合(13.8%)是由所有三个标准达到的"中等"水平表示的，其次是Moderate/Poor/Moderate和Moderate/Important/Moderate组合，比例相同(9.0%)(表3)。此外，在大多数情况下，观察到的相同概况与相同的最终决策相关联。例如，被评为"Moderate/Moderate/Moderate"的15种治疗适应症始终被归类为有条件创新，而其他两个最常见的概况"Moderate/Poor/Moderate"和"Moderate/Important/Moderate"分别始终被归类为非创新和完全创新。从这些组合中，也可以观察到临床证据质量标准所起的作用。事实上，考虑两种不同的模式"Important/Moderate/High"(n = 5; 4.6%)和"Important/Moderate/Low"(n = 4; 3.7%)，它们仅在临床证据的质量水平上有所不同，大多数报告在第一种情况下被归类为完全创新(80%)，而在第二种情况下它们被归类为有条件创新(50%)或非创新(50%)。此外，当将孤儿药与非孤儿药分离时(补充表3)，观察到的标准组合模式变化不大，肿瘤药与非肿瘤药之间也是如此(补充表6)。

表3：与药品创新性定义相关的标准组合模式

治疗需求	附加治疗价值	临床证据质量	n	完全创新(%)	有条件创新(%)	非创新(%)
中等	中等	中等	15	0	100	0
中等	较差	中等	10	0	0	100
中等	重要	中等	10	100	0	0
重要	重要	中等	6	100	0	0
重要	中等	高	5	80	20	0
较差	较差	中等	4	0	0	100
中等	重要	高	4	100	0	0
重要	较差	中等	4	0	0	100
重要	中等	低	4	0	50	50
重要	中等	中等	4	25	75	0
重要	重要	低	4	100	0	0
中等	较差	高	3	0	0	100
中等	NA	中等	3	0	0	100
最高	重要	低	3	67	0	33
中等	较差	低	2	0	0	100
中等	中等	非常低	2	0	0	100
中等	中等	低	2	0	100	0
重要	较差	低	2	0	0	100
重要	重要	高	2	100	0	0
最高	较差	中等	2	0	0	100
最高	中等	低	2	0	100	0
较差	中等	非常低	1	0	0	100
中等	无	高	1	0	0	100
中等	较差	非常低	1	0	0	100
中等	中等	高	1	0	100	0
中等	重要	低	1	100	0	0
重要	无	中等	1	0	0	100
重要	无	高	1	0	0	100
重要	中等	非常低	1	0	100	0
重要	NA	非常低	1	0	0	100
重要	NA	低	1	0	0	100
最高	较差	低	1	0	0	100
最高	中等	非常低	1	0	100	0
最高	中等	高	1	0	100	0
最高	重要	非常低	1	100	0	0
最高	重要	中等	1	100	0	0
最高	最高	中等	1	100	0	0
			109

组合模式按频率递减排序(n)

CT模型确认了先前的结果。如图1所示，附加治疗价值是预测创新性状态的最重要变量。在第一次分割中，"较差"或"无"的附加治疗价值水平区分了一个32份报告的最终节点，其预测类别为无创新性。在第二次分割中，剩余的72份报告根据以下规则分为两个最终节点："最高"或"重要"的附加治疗价值区分了一个33份报告的最终节点，其预测类别为完全创新，否则预测类别为有条件创新。CT在整个样本中达到了89.4%的准确率。当重复CT模型并将整个样本拆分为训练和测试样本时，观察到未改变的结果(未显示)。

图1根据递归分区(RPART)模型构建的分类树，用于评估药物创新性；(B)完整样本(无缺失值，n = 104)的预测与观察分类响应的混淆矩阵。在每个节点中报告三个主要信息：第一行是结果变量的"最"频繁类别名称，第二行是节点观察总数中每个类别的百分比，第三行是节点中观察数量占模型使用总数的百分比(n = 104)。例如，在根节点中，结果的最频繁类别是"非创新性"，占37%。根节点包含模型中使用的观察总数(100%)。而在分裂节点中，结果的最频繁类别是"完全创新性"，占节点观察的51%，包含69%的观察总数。)

讨论

迄今为止，本研究代表了对AIFA药品创新性评估报告的最新分析，因为AIFA采用GRADE方法来评估意大利药物的创新性。

首先，我们的研究表明，药品类型(肿瘤或孤儿药)不影响药品创新性的最终决策，这表明这些特征不能被视为药品创新性的决定因素。

我们知道，如果治疗需求和附加治疗价值都被认定为"最高"或"重要"，且临床证据质量被认定为"高"，则药品可能被视为"完全创新"。另一方面，如果治疗需求和/或附加治疗价值被判断为"较差"或"无"，或者临床证据质量被判断为"低"或"非常低"，则药品不能被认定为创新(孤儿药除外，即使临床证据质量低或非常低，它们也可以获得"完全创新"状态)。

中间情况需逐案评估，同时考虑每个标准的相对权重。我们发现附加治疗价值是唯一与药品创新程度在统计学上相关的标准，这表明它是定义新药品或新治疗适应症创新状态的最重要标准。这意味着临床益处的比率是创新性状态的决定因素，当与可用的替代治疗方法相比时，药品在临床相关终点上测量的临床疗效程度是将药品认定为完全创新的关键因素。当将孤儿药与非孤儿药以及肿瘤药与非肿瘤药分开时，也确认了这种关联。

此外，我们发现如果附加治疗价值是中等的，那么临床证据质量在决策中起决定性作用。治疗需求(评估为替代疗法的可用性)似乎对最终决策没有决定性作用。

分析用于定义药品创新性的三个标准的所有可能组合显示，AIFA方法的两个标准之间存在轻微关联，即治疗需求和临床证据质量。在大多数情况下，相同的观察概况与药品创新性的相同决策相关联，因此我们可以假设相似的决策概况导致创新性状态的相同评估，表明决策之间具有一致性。这在单独分析孤儿/非孤儿和肿瘤/非肿瘤药品时也适用。

基于公开可用的评估报告，使用分类树模型来了解框架的工作原理以及识别预测最终决策的最重要标准。CT模型确认附加治疗价值是创新性决策的最重要决定因素，其次是证据质量，主要是在附加治疗价值被评估为中等时。此外，治疗需求似乎在评估中没有重要作用。当通过将整个样本拆分为训练和测试样本重复CT模型时，观察到未改变的结果，从而显示出模型在预测最终决策方面的良好性能。

我们的研究证实了先前发表的一篇论文(16)的结果，该论文包括有限数量的评估，并显示附加治疗价值对药品创新性评估的最终决策影响最大。然而，我们的分析比之前更广泛，因为它基于更多的评估，并包括标准之间潜在相互依赖性的评估以及分类树模型的应用，该模型被发现能有效预测最终决策。

由于药品创新性的决策可能是任意的，本研究证实AIFA的多维度方法结构良好且灵活，提供了系统化的评估方法，以最大限度地减少偏差并提高决策的一致性。在决策框架中应用三个标准，包括使用GRADE方法评估临床证据质量，朝着提高药品创新性决策过程的透明度和可重复性的方向发展。

除了少数方法和程序差异外，意大利的药品创新性指定模型(3)可被认为与其他欧洲国家使用的系统相当相似，特别是在评估附加治疗价值方面。例如，在法国和意大利，附加治疗价值可以在5个级别范围内，而在德国确定了六个类别(17, 18)。然而，在意大利，药品的附加治疗价值是定义药品创新性的主要标准，而在法国和德国，附加健康相关益处的评估为报销价格/折扣的谈判奠定基础(19, 20)。此外，这些排名与英国NICE评估创新技术的方法中测量药品附加治疗价值的方式有一些相似之处(21, 22)。

此外，在意大利，通过GRADE方法评估证据质量，并分为四个级别。在德国，临床研究的数量和特征以及结果和观察效果的确定性分为四个证据质量类别(23)。在法国，考虑研究质量，尽管没有明确定义的分类系统。在意大利和法国，如果无其他终点可用，可接受替代终点；在德国，仅考虑经过验证的替代终点。最后，意大利和德国对孤儿药品应用特定规则(例如，接受低水平的证据质量)(24, 25)。

即使在美国，食品药品管理局(FDA)于2012年创建的突破性治疗指定也是为了加快针对严重或危及生命的疾病的药物的开发和审查，这些药物基于初步证据，预计将在临床显著终点上提供比现有疗法更显著的益处(26, 27)。

尽管三个标准在各国卫生技术评估过程中的作用不同，但有证据表明，认可创新药品的方法趋于协调，这应保证欧洲患者公平获得创新药品。此外，我们要强调，在欧洲国家中，意大利是唯一一个"创新状态"基于结构良好且可重复的模型授予的国家，并公开提供创新(和非创新)药品清单。

尽管我们的研究结果应通过基于更大评估样本的进一步分析得到巩固，但我们的研究表明，意大利采用的药品"创新"指定模型为决策者(AIFA)带来了好处，他们将拥有高效透明的方法来做出关于药品创新性的决策，同时为患者带来更快速获得新创新药品的好处。

总之，本文全面概述了意大利AIFA发布的关于药品创新性的评估报告，确定了过去3年中药品创新性的决定因素以及评估的准确性和一致性。我们确认AIFA自2017年4月以来选择的多维度方法达到了意大利监管机构的预期目的，即在创新药品的决策过程中提高透明度和问责制。