评估FDA审查医疗设备中AI/ML模型特性的透明度Evaluating transparency in AI/ML model characteristics for FDA-reviewed medical devices | npj Digital Medicine

环球医讯 / AI与医疗健康来源:www.nature.com美国 - 英语2025-11-19 17:22:03 - 阅读时长17分钟 - 8442字
本研究评估了美国食品药品监督管理局(FDA)审查的AI/ML医疗设备的透明度情况,研究者回顾了1970年至2024年12月间FDA批准或清除的1,012个AI/ML设备的安全性和有效性摘要,使用创新的AI特性透明度报告(ACTR)评分系统(包含17个类别)进行评估。研究发现平均ACTR评分为17分中的3.3分,2021年指南发布后仅提高了0.88分,近一半设备未报告临床研究,超过一半未报告任何性能指标。这些发现突显了透明度差距,强调了制定可执行标准以确保对AI/ML医疗技术信任的必要性,并建议采用机器可读的"AI模型卡"等措施改善现状。
健康FDA医疗设备AI/ML模型透明度GMLP原则ACTR评分临床研究数据集特性性能指标模型漂移PCCP
评估FDA审查医疗设备中AI/ML模型特性的透明度

摘要

人工智能(AI)和机器学习(ML)在医疗设备中的快速整合凸显了监管报告透明度的必要性。2021年,美国食品药品监督管理局(FDA)发布了良好机器学习实践(GMLP)原则,但这些原则在FDA审查设备中的遵循情况仍不确定。我们回顾了1970年至2024年12月间FDA批准或清除的1,012个人工智能/机器学习启用设备的安全性和有效性摘要(SSEDs)。使用一种新型AI特性透明度报告(ACTR)评分系统(涵盖17个类别)评估了模型开发和性能的透明度。平均ACTR评分为17分中的3.3分,在2021年指南发布后仅提高了0.88分(95% CI, 0.54-1.23)。近一半设备未报告临床研究,超过一半未报告任何性能指标。这些发现突显了透明度差距,并强调了制定可执行标准以确保对AI/ML医疗技术信任的必要性。

引言

人工智能技术在医疗保健领域的日益强大发展引发了关于其监管的辩论。人工智能和机器学习正越来越多地整合到用于患者诊断和护理的医疗设备中。在医疗保健领域,当这些技术符合医疗设备标准时,食品药品监督管理局(FDA)是对其拥有监管权的机构。对FDA对这些设备监管监督的评估可为这一国家辩论提供重要见解。

2021年10月,FDA与加拿大卫生部和英国药品和医疗产品监管局(MHRA)合作,为机器学习启用的医疗设备(MLMDs)制定了一套10项良好机器学习实践(GMLP)指导原则。在这十项原则中,他们要求"向用户提供清晰、必要的信息",包括"模型在适当亚组中的性能、用于训练和测试模型的数据特性、……设备修改和来自真实世界性能监测的更新"。

截至2024年12月,FDA已通过其510(k)、上市前批准(PMA)和De Novo途径批准或清除1,016个使用AI/ML的医疗设备上市,其中572个设备是在2021年指南发布后批准或清除的。为了评估FDA批准或清除的MLMDs在多大程度上遵循了其自身的报告原则,以及2021年指南是否影响了报告质量,我们系统地审查了这1,016个设备中每个设备公开可用的安全性和有效性摘要(SSED)。

结果

我们分析了总共1,016个MLMDs的批准摘要,其中1,012个可获取。设备批准日期跨度从1970年到2024年,99.7%的设备批准在2000年后,54.2%在2021年后。

监管变量

我们发现96.4%的设备通过510(k)途径获得批准(n = 976),其次是De novo途径(n = 32, 3.2%)和上市前批准途径(n = 4, 0.4%)(表1)。临床专业包括放射学(n = 769, 76%)、心血管医学(n = 99, 9.8%)、神经学(n = 37, 3.7%)、血液学(n = 18, 1.8%)、胃肠病学/泌尿学(n = 16, 1.6%)、麻醉学(n = 14, 1.4%)、眼科(n = 11, 1.1%)和其他(n = 48, 4.7%),后者主要包括临床化学、普通和整形外科以及骨科(表1)。

仅有15个设备(1.5%)报告了预定变更控制计划(PCCP),其中73.3%(n = 11)是在2023年4月PCCP指南引入后报告的(表1)。

临床研究变量

在报告了临床研究的537个设备(53.1%)中,325个(60.5%)报告了回顾性方法,75个(14%)报告了前瞻性方法,11个(2%)同时报告了两种方法。此外,这些设备中有403个报告了临床研究的样本量(75%)(表1)。

数据集特性

在模型开发方面,我们发现大多数设备未报告任何关于训练数据来源的信息(n = 944, 93.3%),也未报告其测试数据来源(n = 764, 75.5%)(表1)。此外,只有9.4%的设备(n = 95)报告了训练数据集规模(患者或图像数量),只有23.2%(n = 235)报告了测试数据集规模(患者或图像数量)。我们发现只有240个设备(23.7%)报告了有关数据集人口统计学的信息。

模型特性

在AI/ML模型特性方面,大多数设备利用了计算机视觉(n = 860, 85%),只有3个设备(0.3%)使用语言作为主要输入方式(表1)。85个设备(8.4%)利用了卷积神经网络,352个(34.8%)利用了某种形式的深度学习(表1)。

性能指标

我们检查了每个设备报告的评估指标。我们发现大多数设备未报告性能指标(n = 522, 51.6%)。最常报告的指标是敏感性(n = 242, 23.9%)和特异性(n = 220, 21.7%),其次是受试者工作特征曲线下面积(AUROC)(n = 110, 10.9%)、阳性预测值(PPV)(n = 66, 6.5%)、准确率(n = 65, 6.4%)和阴性预测值(NPV)(n = 54, 5.3%)(表1,图1)。

这些设备的性能指标包括中位数(四分位距)敏感性为91.2%(85-94.6%),特异性为91.4%(86-95%),AUROC为96.1%(89.4-97.4%),PPV为59.9%(34.6-76.1%),准确率为91.7%(86.4-95.3%),NPV为98.9%(96.1-99.3%)(表2)。

ACTR评分

使用本研究开发的新型AI特性透明度报告(ACTR)评分(17分制指标)对透明度进行了量化(见方法部分)。所有设备的平均ACTR评分为17分中的3.3分(如果不包括临床研究则为14分),标准差为3.1分。评分最低的年份是2008年,平均分为1.1,评分最高的年份是2023年,平均分为4(图2)。任何给定设备的最高得分为12,仅有一个设备获得。最低得分为0,有304个设备(30%)获得此分数。

线性混合效应模型显示,在控制设备是否使用深度学习以及参考设备是否使用AI,并考虑同一公司内分数相关性后,2021年FDA指南发布后,平均得分增加了0.88(95% CI: 0.54-1.23)(补充表1)。对单个指标的更细致分析显示,数据集人口统计学以及测试和训练数据集来源和规模的报告在2021年指南发布前后均存在显著差异(所有p < 0.001)(补充表2)。

我们检查了通过510(k)途径获得批准的MLMDs的提交和批准之间的时间,发现70.9%的设备(n = 691)超过了FDA 90天的目标审查时间(图3)。ACTR评分与设备批准所需时间之间存在0.15的皮尔逊相关性(p < 0.001)。

讨论

虽然对监管AI/ML技术的国家关注显著,但很少有监管机构对这些技术拥有监督权。在医疗保健领域,FDA是AI/ML应用程序作为医疗设备分类的主要监管机构,使其对这些设备的监管方法有机会为国家讨论提供信息。

截至2024年12月,FDA报告已批准1,016个包含AI/ML技术的医疗设备上市。总体而言,96.4%的这些技术是通过510(k)途径获得批准,而不是通过De Novo提交或上市前评估途径(PMA)进行评估。510(k)途径允许赞助商辩称所考虑的设备与参考医疗设备基本等效,以此证明其安全性和有效性,这与更严格的De Novo或PMA途径形成对比。对510(k)途径的过度依赖(该途径本身不要求前瞻性研究)可能解释了为什么AI/ML设备的公开临床证据通常稀缺。

在FDA处理的1,016个设备中,1,012个包含SSED。审查这些文件后,我们发现营销批准后对医疗设备性能的报告存在重大差距。总体而言,对基础医疗设备的临床性能报告非常有限。只有53.1%的设备报告了临床研究,其中62.5%是回顾性分析。由于回顾性研究比前瞻性设计更容易受到选择偏倚和数据集泄露(无意中将结果后数据包含在训练中)的影响,这一证据基础可能高估了现实世界的效果并限制了普遍适用性。大多数设备(51.6%)未报告任何临床指标。在报告指标的设备中,最常见的是敏感性(23.9%)和特异性(21.7%),其次是AUROC(10.9%)、PPV(6.5%)、准确率(6.4%)和NPV(5.3%)。PPV和NPV报告的相对罕见值得注意,因为这些措施随先验概率变化,因此它们的缺失以及条件患病率信息的缺失限制了床边适用性,即使判别力(例如,AUROC)看起来很强。

虽然与这些指标相关的中位数值(敏感性和特异性>91%,AUROC为96.1%,NPV为98.9%)令人印象深刻,但应谨慎解释,因为常见的提交前设计选择可能会夸大性能(例如,单站点内部测试、可能夸大阳性预测值的富集病例组合以及事后阈值调整)。此类做法经常导致在独立的多站点评估中无法持续的乐观估计;系统性综述和跨医院研究反复发现外部数据集上的性能衰减。最后,出色的AUROC或敏感性并不能保证可接受的假阳性负担,因为预测值随疾病患病率变化,而设备摘要中对此报告不一致。

在所有这些措施以及其他我们报告的类别中,我们计算了一个汇总报告透明度指标,称为AI特性透明度报告(ACTR)评分。所有设备的平均评分为17分中的3.3分。

FDA的2021年指南要求对"模型在适当亚组中的性能"进行透明度报告。虽然在此文档发布后ACTR评分有所提高,但与最大可实现分数相比,评分仍然较低,仅增加了不到1分(0.88)。评分从2021年到2022年有所增加(2.8至3.8),但此后基本保持稳定(2024年为3.7)(图2)。低评分反映了在性能指标、训练和测试数据以及模型开发等关键领域的持续缺乏透明度。Muralidharan等人在对其中692个设备的审查中也发现,只有46.1%提供了性能研究结果。除了性能指标本身外,Wu等人报告称,在130个设备中,只有13%的设备在评估中考虑了人口统计学子组性能。鉴于越来越多的证据表明医疗AI性能可能因人口统计学群体而异——甚至可以从图像中推断敏感属性——子组分析报告不足增加了部署中性能不平等的风险。

进一步分析中,我们发现数据质量的提高(即更高的ACTR评分)与设备FDA批准时间的减少无关(反而显示出轻微的正相关),这表明当前审查过程并未为赞助商在提交过程中提高数据质量提供积极激励。实际上,这意味着几乎没有时间上市压力来增强透明度,这可能有助于解释为什么关键披露仍然不常见,尽管有指导。

FDA还要求"向利益相关者传达用于训练和测试模型的数据特性"。然而,此处审查的SSEDs未能达到这些指南;只有1.8%的设备报告了其确切的训练数据集来源,3.6%报告了其确切的测试数据集来源。此外,只有4.2%的设备报告了训练数据站点的地理位置,测试数据站点为16.2%。数据集来源至关重要;没有它,用户无法评估数据集偏移(训练和测试之间数据分布的偏移)或选择偏倚的风险。在对较小设备子集的审查中也报告了类似发现;Wu等人发现评估站点的报告有限,评估站点的地理多样性也有限。此外,与我们的发现一致的是,Ebrahimian等人在对127个设备的审查中报告,很少有设备摘要报告训练或测试数据集规模或多中心验证研究。

事实上,训练和测试数据集报告缺乏透明度对模型的泛化能力构成了重大挑战,引发了对领域偏移和抽样偏倚的担忧。Shick等人发现,如果没有关于训练、测试和真实世界性能的详细可用信息,医疗服务提供者对使用医疗AI设备表示犹豫。此外,训练集中某些数据的过度或不足表示可能会放大现有的种族和性别差异,进一步限制公平结果。事实上,Warriach等人在最近的FDA视角中报告称,AI性能应在使用环境中进行监控,如果没有关于模型如何测试和评估的透明度,这一目标很难实施。因此,前瞻性设计和预先注册的外部多中心验证是防止乐观偏倚的关键保障措施。

FDA还指示设备制造商报告"来自真实世界性能监测的设备修改和更新"。然而,自2023年4月将PCCP引入作为设备修改的预先报告指南以来,只有3.5%的设备报告了PCCP。这一差距令人担忧,主要是由于AI模型倾向于经历"模型漂移"现象,即AI模型依赖于训练时使用的数据,但随着上次训练周期后时间的推移,质量迅速下降。鉴于我们发现越来越多的设备利用深度学习(34.8%的总设备,2021年后为41%),使它们更容易因模型敏感性和复杂性而发生漂移,这一点尤其相关。

虽然美国FDA、英国MHRA和加拿大卫生部在共同制定的GMLP和PCCP原则上保持一致,但在批准或清除前法律要求的内容上存在差异。

在英国,MHRA改革的第一个约束性要素,新的上市后监测(PMS)法规,于2025年6月16日生效,现在要求制造商积极跟踪安全性和性能,在更短的时间内报告严重事件,并维护PMS/PSUR(定期安全更新报告)。在欧盟,最近的AI法案将大多数AI设备视为"高风险"系统,要求严格遵守风险管理、数据治理、技术文档、透明度、人工监督和强有力的上市后监测方面的规定。所有高风险设备在进入欧盟市场前必须由指定机构进行第三方符合性评估。英国和欧盟都比美国提供了更严格的框架,在美国,FDA的上市后监测仅限于不良事件报告、个案监测以及仅针对PMA设备的年度报告。加拿大卫生部进一步鼓励报告训练/测试数据集的人口分布,这在此研究中被发现是FDA数据的限制(只有23.7%的提交报告了数据集人口统计学)。

实证上,英国和欧盟也存在透明度差距。Fehr等人审计了欧盟市场上可用的放射学AI产品,发现公共透明度评分中位数为29.1%,训练数据、道德保障和部署注意事项经常被省略。Matthews等人绘制了欧盟和英国的数字病理学AI产品,发现公开证据稀疏且分散,因为只有42%的产品有同行评审的外部验证。

2024年6月,FDA在2021年指南的基础上进行了扩展,增加了专门针对MLMDs"透明度"的详细指南,涵盖设备性能、模型和数据集特性以及基础技术和机器学习方法等方面。现在判断这些新指南是否会改善医疗设备的性能报告质量还为时过早。

FDA的一个前进方向是在每个公开可用的SSED上附加一个机器可读的"AI模型卡",并发布到公共注册表中。该模型卡将以标准化方式描述用于算法开发的数据的详细信息,包括数据集来源、规模、地理位置、人口统计学、疾病患病率、训练-测试分割策略、评估指标、外部验证站点(如有)、子组结果(如有)、计划的更新路径以及相关模型架构信息。事实上,FDA的生命周期草案指南已经包含了一个示例模型卡,尽管这种结构化元数据报告方法尚未成为强制性要求。

随着AI/ML的发展,FDA正面临一种不适合当前医疗设备监管范式的新型技术的挑战。这些技术的开发是迭代的,因此我们必须了解在考虑批准/清除时技术的性能,但也需要持续监测模型随时间的性能。这应包括对产品上市后疑似不良事件的报告要求。FDA应考虑通过类似威尔士黄色卡片NRI所提出的国家报告指标(NRI)试点来报告疑似不良事件,这导致黄色卡片报告立即增加了145%。应通过有资格获得加速审查通道来激励高于目标的性能,而持续表现不佳则触发更密切的监督和纠正措施。应特别关注模型漂移和算法更新的担忧,要求特定站点和多站点验证,以确保超出初始上市前研究的泛化能力。

我们的研究有几个局限性。首先,我们的审查基于FDA公开可用的批准摘要;可能在向FDA提交的上市前清除申请中报告了更大的透明度,但未向公众公开。其次,尽管有明确的预定义定义并通过评审员共识解决差异,但手动审查过程仍然引入了潜在的主观性,考虑到SSEDs中报告的异质性。第三,虽然ACTR评分提供了报告透明度的新指标,但它并未完全捕捉相关信息披露的广度或报告质量的细微差别,也不是对我们评估的数据元素的层次评估。

尽管存在这些局限性,截至2024年12月,我们发现FDA关于模型透明度的指南与FDA批准或清除上市的设备向公众提供的数据之间存在显著差距。这一结果表明,迄今为止,AI/ML技术的监管对公众的效用可能有限。

方法

数据收集

数据从FDA公开可用的"人工智能和机器学习(AI/ML)启用医疗设备"列表中收集。该列表包含已满足FDA上市前清除要求的使用AI或ML的医疗设备。截至2024年12月20日,有1,016个设备列出;其中,1,012个包含可访问的SSED。

对于每个设备,我们手动审查了决策摘要,以提取感兴趣的变量(数据元素)。至少1名评审员手动对每个设备进行分类,至少1名其他评审员手动验证报告准确性。所有分歧均通过达成评审员共识解决。

为评估设备特性,我们提取了监管数据、临床数据、AI/ML模型使用的分类数据以及应用程序的性能数据。

监管变量

监管数据包括每个设备的清除途径、提交日期、清除日期、相关医疗专业(放射学、心血管医学、神经学、血液学、胃肠病学/泌尿学、麻醉学、眼科、骨科、普通和整形外科、物理医学、妇产科、病理学、毒理学、牙科、普通医院、微生物学或临床化学)、参考设备清除途径以及参考设备批准日期。每个设备要么通过510(k)途径获得清除,要么通过De Novo途径(没有参考的低风险I类和II类设备)获得市场授权,要么通过上市前批准(PMA)途径(通常为III类设备)获得批准。我们还评估了每个设备是否报告了预定变更控制计划(PCCP)。FDA将PCCP定义为描述MLMDs可以在无需新的上市前审查申请的情况下进行的"基于再训练和模型更新策略的预期修改"的文档。

临床研究变量

每个设备被分配到一个医疗专业审查小组。对于进行临床研究的设备,我们提取了临床数据收集类型(回顾性或前瞻性)和临床研究样本量。

数据集特性

我们提取了用于训练、测试和验证模型的数据集信息。这些变量包括以患者数量和图像数量表示的数据集规模,以及数据集来源报告(确切站点、站点数量、站点区域或未报告)。我们评估了设备是否报告了数据集人口统计学。

模型特性

我们还评估了与每个设备的机器学习模型相关的几个新特性。我们将其模型类型分类为(计算机视觉、信号处理、语言、多模态或其他)和模型架构(卷积神经网络(CNN)、U-Net CNN或未报告),以及是否使用深度学习。模型类型基于输入数据进行分类:图像(计算机视觉)、波形(信号处理)、语言(语言模型)或多种类型(多模态)。

性能指标

为评估设备性能,我们提取了机器学习中几个感兴趣的评估指标,包括准确率、敏感性、特异性、受试者工作特征曲线下面积(AUROC)、阳性预测值(PPV)和阴性预测值(NPV)。我们还为报告任何上述未包含的评估指标的设备(如Dice-Sørensen系数、均方误差和精确度)添加了"其他"评估指标类别。

ACTR评分

为评估AI/ML模型开发和性能的综合设备报告,我们开发了AI特性透明度报告(ACTR)评分。ACTR评分是FDA已确定的报告元素的总和。报告以下每个类别的完整分数加1分:数据集人口统计学、准确率、敏感性、特异性、AUROC、PPV、NPV、其他评估指标、PCCP、模型架构、训练数据集规模(患者或图像)、测试数据集规模(患者或图像)、临床测试、临床数据收集类型和临床研究样本量。只有在报告临床测试的情况下,设备才能获得最后两个分数。对于训练和测试数据集来源,设备在报告确切站点时获得1分,在报告站点数量或地理区域时获得0.5分。

数据分析

我们计算了报告的每个变量的百分比或分类变量的每个子类别的百分比的描述性统计(表1)。我们还计算了与模型性能和数据集规模相关的数值变量的中位数和四分位距。

我们计算了每年清除至少5个设备的平均ACTR评分。为评估2021年FDA指南发布后报告透明度(ACTR评分)的变化,我们拟合了一个以ACTR评分为因变量的线性混合效应模型。为考虑混杂效应,我们包含了两个额外的控制自变量:(1)目标设备是否利用深度学习,因为复杂模型通常需要更详细的报告,(2)510(k)设备的参考设备是否也使用AI,因为先前对AI启用参考的依赖可能会减少对新的广泛报告的需求。后者被定义为参考设备是否也出现在FDA清除的MLMDs列表中。我们将公司名称作为随机效应包含在内,以解释同一公司内开发的设备的ACTR评分缺乏独立性。我们还进行了卡方检验,以确定哪些特定报告元素对2021年指南发布后ACTR评分的变化贡献最大。

如果临床报告透明度的提高影响了监管决策,可能会受到激励。我们检查了通过510(k)途径清除的MLMDs的提交和清除之间的时间,计算了皮尔逊相关系数。

使用Python 3.9和R 4.4.2进行统计分析。

【全文结束】

大健康

猜你喜欢

  • AI开启医学与生物科学新纪元AI开启医学与生物科学新纪元
  • 药物发现软件最佳选择:2025年11月深度解析药物发现软件最佳选择:2025年11月深度解析
  • 英国研究人员利用基因"开关"逆转阿尔茨海默病风险英国研究人员利用基因"开关"逆转阿尔茨海默病风险
  • 仁川国立大学研究有望以近乎完美准确率变革皮肤癌检测仁川国立大学研究有望以近乎完美准确率变革皮肤癌检测
  • AI医疗诊断应用市场:2024-2033年全球规模与预测AI医疗诊断应用市场:2024-2033年全球规模与预测
  • 智能体AI将变革生命科学行业智能体AI将变革生命科学行业
  • 谢巴医疗中心ARC与西奈山医学院携手NVIDIA利用人工智能破解人类基因组隐藏密码谢巴医疗中心ARC与西奈山医学院携手NVIDIA利用人工智能破解人类基因组隐藏密码
  • AI驱动的诊断:早期疾病检测的未来AI驱动的诊断:早期疾病检测的未来
  • 人工智能在医疗设备开发中的未来人工智能在医疗设备开发中的未来
  • 监管缺失且不安全:专家警告物质使用减少应用的风险监管缺失且不安全:专家警告物质使用减少应用的风险
大健康
大健康

热点资讯

大健康

全站热点

大健康

全站热文

大健康