在随机对照试验中检测AI医疗设备的算法错误和患者伤害:系统性综述方案JMIR Research Protocols - Detecting Algorithmic Errors and Patient Harms for AI-Enabled Medical Devices in Randomized Controlled Trials: Protocol for a Systematic Review

环球医讯 / AI与医疗健康来源:www.researchprotocols.org英国 - 英语2026-01-08 22:21:18 - 阅读时长14分钟 - 6988字
本研究提出了一项系统性综述方案,旨在评估随机对照试验中AI医疗设备的算法错误和患者伤害情况。该综述将分析AI错误的频率、严重程度及分析方法,特别关注亚组水平结果的调查。研究通过系统搜索多个数据库和临床试验注册库,提取相关数据进行质量评估和综合分析,以期发现当前AI医疗设备在临床应用中的安全问题,为未来AI医疗设备的评价和监管提供依据,确保AI技术在医疗领域的安全、有效和公平应用,推动医疗AI技术在临床实践中的稳健发展和风险管控体系的完善。
患者安全不良事件随机对照试验医疗设备系统性综述算法人工智能AIAI健康技术安全算法错误
在随机对照试验中检测AI医疗设备的算法错误和患者伤害:系统性综述方案

在随机对照试验中检测AI医疗设备的算法错误和患者伤害:系统性综述方案

摘要

背景:人工智能(AI)医疗设备有潜力改变现有的临床工作流程并最终改善患者预后。AI医疗设备在诊断、预后和治疗决策(如药物剂量)等一系列临床任务中显示出潜力。然而,迫切需要确保这些技术对所有人群都是安全的。近期文献表明,需要进行严格的性能错误分析,以识别算法编码虚假相关(例如,受保护特征)或可能导致患者伤害的特定故障模式等问题。评估AI医疗设备的研究报告指南要求提及性能错误分析;然而,关于临床研究中应如何分析性能错误,以及作者应检测和报告哪些伤害,目前仍缺乏理解。

目标:本系统性综述将评估在临床环境中作为干预措施评估AI医疗设备的随机对照试验(RCTs)中AI错误和不良事件(AEs)的频率和严重程度。该综述还将探索如何分析性能错误,包括分析是否包含对亚组水平结果的调查。

方法:本系统性综述将识别和选择评估AI医疗设备的RCTs。将在MEDLINE(Ovid)、Embase(Ovid)、Cochrane CENTRAL和临床试验注册库中部署搜索策略,以识别相关论文。在书目数据库中识别的RCTs将与临床试验注册库进行交叉引用。主要关注的结果是AI错误、患者伤害和报告的AEs的频率和严重程度。RCTs的质量评估将基于Cochrane偏倚风险工具版本2(RoB2)。数据分析将包括比较研究组之间的错误率和患者伤害,以及在适当时对对照组与干预组中患者伤害率进行荟萃分析。

结果:该项目于2023年2月在PROSPERO上注册。初步搜索已完成,搜索策略已与信息专家和方法学家协商设计。标题和摘要筛选于2023年9月开始。全文筛选正在进行中,数据收集和分析于2024年4月开始。

结论:AI医疗设备的评估已显示出有希望的结果;然而,研究报告参差不齐。在RCTs中检测、分析和报告性能错误和患者伤害对于稳健评估AI医疗设备的安全性至关重要。范围搜索表明,伤害报告参差不齐,通常没有提及AEs。本系统性综述的结果将确定AI性能错误和患者伤害的频率和严重程度,并生成关于如何分析错误以考虑整体和亚组性能的见解。

试验注册:PROSPERO CRD42023387747

国际注册报告标识符(IRRID):PRR1-10.2196/51614

关键词:患者安全;不良事件;随机对照试验;医疗设备;系统性综述;算法;人工智能;AI;AI健康技术;安全;算法错误

引言

背景

人工智能(AI),即使用机器执行通常需要人类智能的复杂过程,有潜力改变医疗保健。此类数据驱动技术的潜在好处包括广泛的临床应用,如更快的诊断、预后、数字治疗,甚至检测新型信号。尽管围绕AI医疗设备存在极大热情,但在基于计算机的测试环境中的表现通常与现实世界不同。迫切需要调查如何评估和监控此类技术,以确保临床效益并避免患者伤害。

AI错误和患者伤害

将AI医疗设备从"代码到临床"的转化过程复杂,如果规划不当,可能导致严重的安全问题。安全评估涉及理解与AI医疗设备相关的风险,包括可能出现的AI错误、这些错误如何导致患者伤害,以及可能存在哪些故障模式。这些概念在文本框1中定义。

文本框1. 术语表

不良事件:在药物或其他干预措施使用期间或之后发生的不利结果,但不一定由其引起。

人工智能(AI)错误:AI系统产生的任何不准确输出,包括与预期性能不一致的输出,以及如果未被检测到或检测过晚可能导致伤害的输出。

故障模式:在特定条件下出现故障的倾向。虽然错误可以是单一事件,但故障模式代表会反复发生且通常具有相似后果的错误。

患者伤害:对人们健康的伤害或损害(根据国际标准化组织[ISO] 14971-医疗器械风险管理的应用定义);干预或治疗可能造成的全部不良后果。

AI医疗设备的性能评估和监测

AI医疗设备安全性和有效性证据可以在评估过程的各个阶段生成,大致可分为上市前和上市后评估。上市前评估包括一系列研究类型,如测试准确性研究和随机对照试验(RCTs)。而上市后评估则包括这些研究类型以及本地保证实践和持续监测。存在多种研究设计用于生成有效性证据,其中前瞻性RCTs在减少偏倚和客观测量AI干预对临床结果的影响方面提供了最有力的证据。近期文献表明深入的性能错误分析的重要性,包括识别"非人类错误"(例如,AI错过的高度移位骨折)、测试算法编码受保护特征,以及进行探索性错误分析以识别隐藏分层的情况。AI医疗设备可能总体表现良好;然而,如果没有更严格的错误分析,包括探索性和亚组分析,就无法真正理解对患者个体的临床影响。性能错误分析的概念已在最近的临床试验和试验方案AI扩展报告指南中概述(CONSORT-AI和SPIRIT-AI)。近期系统性综述表明RCTs的报告质量仍然参差不齐且低于标准。这些综述表明已发表的RCTs对CONSORT-AI报告指南的遵守情况不佳。目前仍缺乏专门描述错误和不良事件(AEs)的报告和分析以及如何进行性能错误分析的文献。需要在此领域进行文献综述,以指导未来AI医疗设备的临床评估和真实世界AE报告。本系统性综述旨在探索AI干预RCTs中的AI错误和AE报告。

目的

本系统性综述将评估在临床环境中作为干预措施评估AI医疗设备的RCTs中AI错误和AEs的频率和严重程度。在报告的情况下,将提取有关AI系统风险、报告的错误以及如何分析这些错误的数据。我们的研究问题是,RCTs中AI错误和AEs的特征(包括频率和严重程度)是什么,以及这些性能错误是如何分析的?

目标

本综述的主要目标是评估AI医疗设备RCTs中报告的错误和AEs的频率、严重程度和类型。综述的次要目标包括(1)识别在报告错误或伤害时进行的分析,以及(2)报告用于错误和AE检测的方法。

方法

协议

本系统性综述协议的编写符合PRISMA-P(系统性综述和荟萃分析协议的首选报告项目)指南。完成的系统性综述将按照PRISMA(系统性综述和荟萃分析的首选报告项目)指南进行报告。如果在本系统性综述提交前已发布,将使用首选报告项目系统性综述和荟萃分析人工智能(PRISMA-AI)。

系统性综述注册

本系统性综述协议已在PROSPERO(CRD42023387747)上注册。

信息来源

搜索策略将用于搜索3个在线书目数据库以及临床试验注册库,以识别在临床环境中评估AI干预的RCTs。文献搜索不限于年份,以确保识别所有AI医疗设备RCTs。已发表研究的书目数据库是MEDLINE、Embase和Cochrane CENTRAL。临床试验的注册库是ClinicalTrials.gov和世界卫生组织(WHO)国际临床试验注册平台(ICTRP门户)。

搜索策略

在书目数据库中,将使用自由文本和索引术语搜索AI医疗设备的RCTs。临床试验注册库将使用内置过滤器搜索具有结果的RCTs。在书目数据库中识别的RCTs将使用临床试验注册库进行交叉引用,以确保捕获所有伤害数据。搜索策略已与信息专家(AC)协商制定,并在多媒体附录1中包含更多详细信息。搜索于2023年6月30日执行。未应用日期截止。

选择标准

概述

选择标准使用被认为最适合并为此研究调整的SDMO(研究、数据、方法、结果措施)框架进行结构化。如果提供翻译,将包括未以英语发表的研究。

研究类型

本系统性综述仅包括RCTs。其他研究类型,包括非随机临床试验、观察性研究和病例研究将被排除。综述将包括在任何级别(如聚类随机化和交叉RCTs)进行随机化的试验。

数据类型

直接影响患者护理的AI医疗设备干预将被包括在内,例如诊断、预后或治疗任务。如果AI医疗设备的功能在试验中描述为与医疗设备功能一致,将被包括在内,即符合国际医疗器械监管机构论坛(IMDRF)定义的医疗设备功能范围。将排除用于非临床任务部署的AI医疗设备。评估机器人干预的RCTs也将被排除。

方法类型

将包括具有非AI标准护理对照组的RCTs。仅具有AI启用对照组的RCTs将被排除。此外,综述将包括已进行错误分析的试验。

结果

将包括报告AEs和患者伤害(未明确报告为AEs)的RCTs进行最终分析。不涉及这些结果的研究将被检查以提取与RCT设计和AI医疗设备特征相关的数据。

选择过程

一旦通过搜索策略识别出论文,将通过标题和摘要筛选相关性。将使用Rayyan系统性综述工具筛选结果。无关研究将被删除。此过程将由2名评审员独立进行,任何差异将通过讨论或提交给仲裁员解决。

确定为可能相关的论文将被检索,并根据上述选择标准对全文进行纳入评估。在全文筛选期间,还将评估研究是否存在患者伤害数据或任何形式的性能错误分析。存在这些数据的研究将被标记为完整提取和偏倚风险评估,而未报告这些数据的研究将仅被标记为提取RCT设计和AI技术特征。这将再次由2名评审员独立完成,必要时可寻求仲裁。

如果包括的RCTs未报告错误或AEs,仅提取与AI医疗设备类型和试验设计相关的数据。这在PRISMA图表中标记为第1阶段提取。

数据提取

数据提取过程将使用标准化、经过测试的数据提取表进行。数据将输入Microsoft Excel中的数据提取表。这将由2名评审员独立完成,使用商定的数据提取模板。必要时将联系论文作者获取更多信息和澄清。将提取以下项目(文本框2)。

文本框2. 使用经过测试的数据提取表进行数据点提取

研究特征

  • 标题、作者、出版年份、期刊和国家
  • 专业(医学学科,例如放射学、眼科或心脏病学)
  • 研究背景(例如初级保健或医院护理)
  • 研究设计
  • 样本量
  • 研究长度(时间段)
  • 对照组比较器(工作流程概述)
  • 基线特征亚组(例如性别、年龄、种族和经济社会细节)
  • 主要和次要终点

人工智能(AI)医疗设备特征

  • AI医疗设备名称
  • AI开发者(和相关制造商)
  • AI子类型,例如"递归神经网络"
  • AI预期用途和临床路径(背景)
  • AI自主级别(即预期的人类监督程度)。自主级别将根据文献中描述的分类从1到5分级
  • 输入数据
  • AI输出
  • 在临床决策中的作用
  • 终端用户特征(例如临床医生或患者)

结果和发现

  • 主要结果(满足系统性综述的主要目标):
  • AI错误的频率
  • 所有研究组中不良事件(AEs;根据包括国际标准化组织[ISO] 14971-医疗器械风险管理应用的相关监管文件分类)的频率和严重程度
  • 识别的错误、患者伤害和AEs的特征
  • 次要结果(满足系统性综述的次要目标):
  • 性能错误分析的类型,例如根据患者或任务特征进行的亚组分析
  • 研究中描述的错误和AE检测方法以及在随机对照试验(RCT)中实施的风险缓解措施

AE和性能错误分析报告

将提取所有包括的RCTs中评估的AI医疗设备的特征。仅对报告某种形式的AEs(或作者未明确报告的可能患者伤害)或性能错误分析细节(CONSORT-AI扩展的项目19)的研究完成完整数据提取。性能错误分析定义为以下任何一项:(1)探索性错误分析,(2)亚组分析,或(3)对抗性测试。

质量评估

将对所有包括的研究进行质量评估。将使用Cochrane偏倚风险工具版本2(RoB2)评估随机试验的研究。评估将由2名评审员独立进行,必要时由第三名评审员进行仲裁。风险分为"低"、"高"或"某些担忧"。

数据综合

概述

发现将以叙述性和表格格式综合。包括的研究将基于AI医疗设备类型和RCT研究设计分为3组(1、2a和2b如图所示)进行组内(和可能的组间)比较。

  1. 评估治疗性AI医疗设备的研究(例如药物剂量算法和AI启用的心理治疗)
  2. 评估诊断或预测性AI医疗设备的研究
  3. 有真实情况(其中真实情况是参考测试,例如活检结果或临床医生意见)
  4. 无真实情况

数据综合将分为2个部分,与本协议中概述的目标一致。第一部分侧重于综述的主要目标—AI错误和患者伤害的频率、严重程度和类型。第二部分侧重于综述的次要目标:(1)基于CONSORT伤害扩展的伤害数据报告,(2)描述的性能错误分析类型,以及(3)为每个健康领域确定的兴趣亚组。

实现主要目标的分析

将为每个RCT计算AI错误和患者伤害率。这些数据将在识别的组之间和内部进行比较。将考虑的分析如下:

  • 首先,报告的AEs与AI和对照组之间的比较,例如(1)每种技术的AEs频率和严重程度,与列出的AI医疗设备组比较;(2)AE是否直接与AI医疗设备相关(由RCT作者评估);以及(3)AEs的严重程度将基于国际标准指南(ISO 14971-医疗器械风险管理应用)。
  • 其次,错误频率,例如诊断AI医疗设备的假阳性和假阴性。如果AI输出报告为可能性分布,则分析将由对AI输出采取的后续临床行动指导。如果研究中存在真实情况,则可以进行比较,例如(1)在列出的AI医疗设备组内部和之间进行比较。还将包括AI医疗设备使用的算法类型进行比较,以及(2)如果适当,将进行荟萃分析,调查干预组与对照组中作为总输出比例的伤害。适当性将通过评估试验特征的异质性来定义。异质性评估将包括考虑试验设计、主要结果和报告的AEs类型。
  • 第三,AI医疗设备的错误和伤害特征,例如(1)AI医疗设备错误率和错误临床行动之间的比较。例如,如果AI医疗设备输出错误地建议给药,这种药物是否实际给药?(2)将尽可能提取作者未明确报告但识别出的伤害。
实现次要目标的分析 故障模式

将记录描述亚组和探索性错误分析的研究数量。首先,将记录AI医疗设备在临床任务中的性能亚组分析。将记录RCTs中描述的每个医学专业感兴趣亚组。其次,将记录探索性错误分析,特别关注最可能导致每个临床用例错误的情景类型。将记录每个医学专业和临床任务描述的故障模式。第三,将比较每种AI医疗设备类型和临床学科进行的性能分析类型,以确定故障率高的组别。

错误和AE检测方法

将记录每项研究的错误和AE检测方法。对所有识别的RCTs(包括被排除完整提取的)提取AI医疗设备特征将展示没有AEs或隐性患者伤害的AI医疗设备趋势。这将有助于识别AE检测方法特别不发达或使用频率较低的领域。AE检测方法的一个例子是使用问卷让患者在与AI启用的心理健康聊天机器人互动后自我报告AEs。

结果

该项目于2023年2月在PROSPERO上注册。初步搜索已完成,搜索策略已与信息专家和方法学家(AC和DJM)协商设计。搜索于2023年6月进行。标题和摘要筛选于2023年9月开始,于2024年2月结束。去重后,筛选了11,913篇论文,最终有423项合格研究进入全文筛选。全文筛选于2024年4月完成。数据提取于2024年4月开始。数据分析和论文起草将于2024年5月至7月进行。

讨论

AI医疗设备的潜在价值已被广泛认可,最近已发表了许多关于模型开发和评估的研究。尽管AI医疗设备前景光明,但其大规模部署仍面临障碍。其中最重要的相关挑战之一是确保这些技术有效、安全和包容。作为干预性研究,RCTs允许测量临床上相关的结果,包括在计算机模拟研究中不可能实现的患者伤害。作为随机临床试验,研究设计减少了偏倚,因此被认为是临床证据的黄金标准。

本系统性综述旨在评估AI错误和AEs的频率和严重程度。将提取有关如何分析AEs和AI错误的数据,如亚组分析和故障模式识别。调查错误和AEs的严重程度和频率,以及它们在RCTs中如何报告,可能为研究设计、现实影响和评估AI医疗设备意外影响的方法提供见解。该系统性综述不仅将揭示哪些AI医疗设备或RCT设计最常报告AEs,还将揭示用于AE检测的方法。这些方法的总结将是本研究产生见解的重要部分。本系统性综述的主要预期局限性是不同医学专业和AI医疗设备类型之间结果的异质性。这将通过根据AI医疗设备类型和医学专业对RCTs进行分组来解决。鉴于AI错误和AEs分析和报告缺乏共识,此次广泛综述的益处超过了局限性。此外,近期文献综述表明对CONSORT-AI指南的遵守情况不佳,这表明存在报告局限性。这意味着如果没有报告AI错误或AEs,这并不一定表明研究中没有发生。最后,AI错误可能导致也可能不会导致临床错误,而在其他情况下,临床错误可能是由工作流程中的人类参与引入的。映射临床工作流程和分析工作系统元素将很重要;然而,可能存在报告局限性。在相关情况下,可能会联系作者获取更多信息。

目前迫切需要能够检测、分析和报告与AI医疗设备使用相关的AI错误和AEs的方法。本系统性综述旨在成为首个专注于医疗保健中AI医疗设备相关错误和AEs的综述。该系统性综述的影响将是双重的。首先,它将展示当前错误和AE检测、分析和报告的实践,为围绕RCTs中AI伤害的最佳实践进一步工作奠定基础。其次,我们希望这项工作将指导AI医疗设备的现实世界部署,特别是安全监控和风险缓解实践,这是全球高度关注的领域。这将通过指出综述中确定的AE检测和性能错误分析最佳实践来实现。这是着眼于AI医疗设备上市后安全监控的更广泛工作计划的一部分。同时还在进行一项补充性系统性综述,重点关注监管数据库中报告的AEs。

【全文结束】

猜你喜欢
    热点资讯
    全站热点
    全站热文