人工智能诊断工具的临床证据要求

执行摘要

人工智能（AI）正通过分析复杂的临床数据——图像、信号和记录——来协助或自动化疾病检测，迅速改变医疗诊断方式。然而，将AI诊断工具转化为常规临床实践的进展有限：超过90%开发的AI模型在实践中未被使用（[1]）。主要障碍是缺乏严格的临床证据来证明其安全性、准确性和临床效用。专家指出，对于AI医疗设备，"迄今为止几乎没有证据证明其在实践中的有效性"（[2]），对其安全性和潜在偏见的了解更少。作为回应，全球监管机构和利益相关方现在强调针对AI独特属性制定严格的证据要求。值得注意的是，美国食品药品监督管理局（FDA）和欧盟监管机构要求使用代表性数据进行强有力的临床或性能评估（[3]）。

在美国，大多数AI工具通过510(k)途径（上市前通知）获得批准，该途径对临床证据的要求远低于上市前批准（PMA），而是依赖于同类产品比较（[4]）（[5]）。这种"同类产品累积"可能导致安全性和有效性评估不充分。相比之下，欧盟医疗器械法规（MDR/IVDR）要求在CE认证前对诊断AI进行临床评估，包括通过试验或真实世界数据证明其预期性能（[3]）。预计未来将出台更多针对AI的法律，即将实施的欧盟AI法案将对许多活跃于医疗领域的AI设备施加高风险要求，例如严格的数据治理和偏见控制（[6]）。

在AI开发的每个阶段都需要高质量的临床证据。回顾性验证在历史数据上是必要的最低要求，但仅此一项不足。强烈推荐在预期临床工作流程中进行前瞻性研究——理想情况下是随机试验或严格的队列研究，以测量AI使用如何影响诊断、治疗和患者结果。例如，IDx-DR（糖尿病视网膜病变AI）获得FDA批准的研究是一项900名患者的前瞻性试验，显示其检测可转诊视网膜病变的灵敏度为87.2%和特异度为90.7%，显著超过预设目标（[7]）（[8]）。

同样，乳腺癌筛查中AI的首次大型随机试验（瑞典MASAI试验）表明，AI辅助乳腺X光检查总体上将癌症检出率提高了29%，同时未增加假阳性，并将晚期癌症诊断率降低了12%（[9]）（[10]）。这些发现强调了前瞻性临床评估和针对预设终点的统计显著性至关重要。当试验不可行时，设计良好的真实世界队列和注册表——透明报告灵敏度、特异度和校准——可以帮助建立证据基础。

然而，专家观察到当前的证据生成是碎片化的（[11]）。许多已发表的研究仅依赖于计算机模拟或回顾性分析，通常使用有偏见或非代表性数据（[12]）（[11]）。这导致系统性综述中识别出"高偏见风险"（[12]）。缺乏标准化报告（如CONSORT-AI和STARD-AI倡议所强调的）使得难以比较研究或信任声明。监管审查员越来越要求透明度：FDA自己的AI赋能设备清单规定，授权设备已接受适当的安全性和有效性临床评估（[13]）。欧盟的新指南明确要求"使用代表预期患者群体的数据进行强有力的临床证据"（[3]）。

在本报告中，我们分析了AI诊断临床证据的现状和未来前景。我们回顾了监管框架（美国、欧盟和其他地区），详细说明了所需数据的类型和质量，并讨论了研究设计（从计算机模拟试验到随机对照试验）。我们通过多个案例示例——从自主视网膜筛查到中风分诊——说明了证据生成如何成功或不足。我们还研究了专家意见和已发表的关于必要性能标准、验证策略和上市后监测的发现。最终，严格和标准化的证据生成对于充分实现AI诊断在提高准确性、效率和患者结果方面的承诺至关重要。

引言与背景

医学中的人工智能（AI）有望通过利用机器学习处理大型临床数据集来增强甚至自动化诊断。AI医疗诊断设备（AIMDD） 使用算法分析多源数据——如症状、生命体征、医学图像和实验室结果——以确定疾病类型、阶段或严重程度，并协助临床医生（[14]）。在实践中，AI诊断通常表现为软件即医疗器械（SaMD）。例如，影像学（放射学、病理学）中的卷积神经网络执行自动病灶检测或分级，而自然语言处理可以标记临床记录中的疾病提及。AI工具被定位为第二读片人或预筛选器，通过捕捉人类可能遗漏的发现来减轻工作量并提高一致性（[15]）。事实上，研究表明AI辅助可以提高临床医生的灵敏度和诊断一致性（[16]）。

今天的临床实施包括糖尿病视网膜病变筛查（IDx-DR）、中风检测系统（例如Viz.ai）以及用于肺结节分诊、心律失常警报等的工具。

AI在医疗保健领域的潜在市场巨大：预计到2030年，全球AI医疗技术市场将达到约1880亿美元（[17]）。然而，尽管研究原型令人印象深刻，实际部署却滞后。最近的一项调查发现"超过90%的AI模型未应用于常规临床实践"（[1]）。障碍包括用于训练的高质量、代表性数据有限；对患者隐私和数据安全的担忧；以及许多算法的"黑箱"特性阻碍了临床医生的信任（[1]）。伦理和法律问题——如算法偏见、误诊责任和公平获取——也使采用复杂化。关键的是，在真实临床环境中缺乏准确性和安全性的有力证据削弱了监管机构和临床医生的信心（[2]）（[1]）。正如一篇专家综述所指出的，尽管AI诊断被广泛预期将改善护理流程，"迄今为止几乎没有证据证明其在实践中的有效性"，引发了关于何时、如何以及对谁真正有帮助的问题（[2]）。

监管机构、卫生系统和专业团体正努力解决这些差距。国际指南（如SPIRIT-AI、STARD-AI、CONSORT-AI）已提出以标准化AI研究的设计和报告（[18]）。监管机构（FDA、EMA、NMPA等）正在更新规则并发布有关AI特定考虑因素（数据质量、偏见、更新）的指南。同时，国家卫生与临床优化研究所（NICE）等卫生技术评估机构已开发出指导AI采用的证据框架（[19]）（[20]）。尽管做出了这些努力，该领域仍在成熟中：正如Weissman等人指出的，"投资速度已超过高质量证据生成速度"（[21]）。要使AI诊断安全、有效和可信，必须开发与传统医疗器械相媲美的严格临床证据体系。

本报告系统地考察了AI诊断工具的临床证据要求。我们首先概述全球监管环境，然后深入探讨什么构成适当的证据。我们考虑了性能的统计度量（灵敏度、特异度、AUC等）和临床结果（对患者护理的影响）。我们讨论了研究设计——从回顾性验证到前瞻性试验——以及AI特有的挑战（如数据集变化、透明度）。多个真实案例研究说明了证据如何在实践中生成（或被忽视）。在整个过程中，我们融入了最新数据、专家分析和监管公告，描绘了AI诊断中当前和新兴证据标准的全面图景。

AI诊断工具的监管环境

全球范围内，AI诊断软件通常属于医疗器械监管范围。然而，各司法管辖区的框架有所不同：

美国（FDA）

在美国，如果AI诊断工具符合法定定义（旨在用于诊断/治疗且未豁免），则由美国食品药品监督管理局（FDA）作为医疗器械进行监管。大多数AI工具是软件即医疗器械（SaMD）。FDA的数字健康部门已发布指南，澄清何时临床决策支持（CDS）软件是设备以及如何对AI/ML特定设备进行分类（[22]）（[23]）。大致而言，提供"影响或指导"临床决策建议的软件是医疗器械，而仅呈现数据或指南而不进行解释的软件通常不是（根据FDA 2017年临床决策支持最终指南）（[24]）（[25]）。重要的是，如果AI系统在诊断中取代或自动化临床医生判断（特别是在时间紧迫的情况下），则被归类为需要FDA审查的医疗器械（[26]）（[25]）。

FDA路径和证据期望

一旦被认定为设备，AI诊断工具通常通过以下三种途径之一进入FDA市场：

上市前批准（PMA）：最高风险类别，需要大量临床证据（通常来自RCT或试验）证明安全性和有效性。很少有软件产品走PMA。
上市前通知（510(k)或PMN）：AI软件最常见的途径。制造商必须证明该设备与已合法上市的同类设备"基本等效"。关键的是，这需要的临床证据远少于PMA（[4]）（[5]）。实际上，大多数获批的AI工具依赖于与旧设备的比较。Weissman等人报告称，"如果确立了与同类设备的实质性等效性，则要求很少临床证据的PMN途径可能会破坏建立现代AI医疗器械安全性和有效性的努力"（[5]）。他们描述了"同类产品累积"的情况，即同类产品的链条（有些可追溯到1980年代）削弱了有意义的评估（[27]）。事实上，自2020年以来，FDA一直维护着一个AI/ML设备的公共数据库，显示大多数FDA授权的AI设备是通过510(k)/PMN获得批准的（[28]）。
新型分类（De Novo Classification）：针对没有合适同类产品的新型中等风险设备。此途径可能需要临床数据，但比PMA负担小。一些AI系统（特别是真正开创性的系统）可能会使用De Novo。

FDA明确审查这些申请中的安全性和有效性证据。其自身的AI赋能设备清单指出，所包括的产品"已满足FDA适用的上市前要求，包括对设备整体安全性和有效性的重点审查"，这涉及评估研究对设备预期用途的适当性（[13]）。然而在实践中，510(k)批准通常涉及有限的临床验证。批评者认为，许多获批的AI工具尚未经过严格的前瞻性评估（[29]）（[5]）。例如，FDA 2022年关于放射学中计算机辅助检测的指南仍允许将回顾性影像数据作为510(k)提交的主要证据，仅建议在可能时进行"临床性能评估"（[30]）。

FDA正在适应这些担忧。2021年，它发布了针对AI/ML基于SaMD的行动计划，强调开发、真实世界监测和变更管理的"良好机器学习实践"（GMLP）。FDA还召集了AI/ML共识会议，以定义最佳实践。未来的监管更新可能会强调生命周期监督和基于结果的评估（正如Weissman等人所暗示的："优先事项包括...关注患者健康结果"（[31]））。然而目前，开发商在很大程度上仍需用可用数据证明性能。

欧盟（MDR/IVDR和即将实施的AI法案）

在欧盟，AI诊断软件根据所声称的目的受医疗器械法规（MDR）或体外诊断法规（IVDR）监管。自2021年5月以来，MDR要求比先前的MDD更高的临床证据标准，公告机构需要审查所有IIa+设备的临床数据。一个核心原则是临床评估：制造商必须通过生成临床数据证明安全性并按照最新技术水平和声明要求证明性能。对于诊断软件，这可能涉及临床试验、前瞻性研究或回顾性分析，前提是它们使用代表性患者数据和真实世界环境。

最近的欧盟指南（联合MDCG/AIB常见问题解答）明确了对*医疗器械人工智能（MDAI）*的具体期望。关键点包括：

根据MDR/IVDR，制造商必须通过临床或性能评估生成"强有力的临床证据，使用代表预期患者群体和使用环境的数据"（[3]）。
即将实施的欧盟AI法案（2024-2025年生效）将大多数中/高风险医疗AI视为"高风险"AI系统。AI法案通过要求高风险AI的训练、验证和测试数据集"相关、足够代表性、无错误、[和]完整"来加强MDR义务（[6]）。它特别要求记录偏见缓解策略和持续性能监测（[6]）。
欧盟指南指出，除了MDR的临床证据规定外，AI特定规则要求全面的数据治理和持续监测，以确保上市后安全（[32]）。
值得注意的是，欧盟规则并未从根本上降低AI的证据标准；它们强调即使AI的"自学习"方面也必须得到控制。MDR要求记录任何重大软件变更（包括模型更新），而高风险AI可能在重大更新后需要新的符合性评估（[32]）。

因此，欧盟的系统是基于风险的：IIa类（例如非植入诊断工具）AI设备至少需要记录的性能评估（通常是回顾性或基准测试），而III类（例如关键诊断）或高风险IVD需要详细的临床调查。新的AI法案增加了额外层次：制造商必须满足其要求以及MDR义务，这意味着总证据档案可能比非AI设备更严格（成本也更高）。然而，与美国FDA默认更便宜的同类产品批准不同，欧盟没有"同类产品路径"的类似物，除了De Novo型概念：每个设备都必须符合基本要求，并且通常要接受公告机构的审查（[5]）。简而言之，AI工具的CE标志通常需要清楚地证明（通过研究数据或文献），该算法在目标人群中实现了其所声称的性能。

其他司法管辖区

英国：脱欧后，英国药品和医疗器械监管局（MHRA）以类似于欧盟MDR/IVDR的方式实施UKCA标志。此外，英国国家卫生与临床优化研究所（NICE）发布了数字健康技术（DHT）的证据标准框架（[19]）（[33]）。虽然不是监管法律，但NICE的框架影响NHS采购：它根据功能对DHT进行分类，并根据所声称的益处规定证据级别（从基本可用性研究到RCT）。AI诊断工具（可能在较高层级）预计显示真实世界临床有效性和成本效益。英国卫生部关于数据驱动健康技术的行为准则也强调了安全性和有效性的证据。
中国：国家药品监督管理局（NMPA）根据其分类规则监管AI诊断设备。根据刘等人（Nature Digital Medicine 2024）的说法，截至2023年中，中国已批准59种AI医疗器械（[34]）。中国监管的特点是更为"基于规则"；新型AI算法通常属于III类，需要临床试验数据才能获得批准（[34]）。指南强调，如果AI算法提供诊断或治疗建议（特别是对于严重疾病），则属于高风险（III类），必须经过严格验证。中国框架还高度关注数据安全和算法透明度，尽管关于具体研究要求的公开细节很少。（实际上，许多AI设备首先在三级中心根据监管研究豁免进行试点，然后再寻求全面批准。）
其他地区：日本和加拿大等司法管辖区同样将AI工具视为医疗器械。例如，日本药品和医疗器械管理局（PMDA）采用基于风险的分类，并发布了鼓励依赖AI特定标准的指南。在所有情况下，趋势都是全球趋同：监管机构期望在上市前证明安全性和性能，越来越强调上市后的实际效果和公平性。

关键要点是监管机构现在明确要求适合AI诊断风险和新颖性的证据。值得注意的是，AI的证据要求（如果未在旧框架中明确详细说明）正通过指南、标准和新立法（如欧盟AI法案）编纂。对于高风险诊断，美国和欧盟监管体系最终都要求证明临床有效性（准确性）以及通常的临床效用。关键的是，监管机构强调数据质量和代表性是证据质量的一部分：如果真实世界患者组合不同，仅在同质数据集上报告高AUC是不够的（[3]）（[6]）。

临床证据标准和指南

鉴于这一监管环境，什么构成AI诊断可接受的"临床证据"？虽然细节各不相同，但在学术界和政策圈中正在形成共识：

性能指标作为最低要求：对于诊断准确性，关键统计包括灵敏度、特异度和接收者操作特征（ROC）曲线下面积（AUROC）。这些指标应与置信区间一起报告，并针对预定义的终点。例如，关键AI试验通常设定优越性阈值（如IDx-DR），必须达到或超过。FDA长期以来一直强调灵敏度/特异度（见其2022年关于计算机辅助检测的指南）（[30]）。然而，现代评估者警告不要仅依赖汇总指标：他们建议在可能的情况下进行彻底校准（确保预测风险与观察率匹配）和决策曲线分析（了解临床影响）。
代表性数据集：证明准确性需要测试数据反映预期用途。欧盟指南明确要求"代表预期患者群体和使用环境的数据"（[3]）。这呼应了文献中避免抽样偏见的呼吁。Xu等人的范围综述强调，许多AI研究存在谱系偏见（例如，主要评估严重病例）并且对少数群体代表性不足（[12]）。最佳实践是包括多样化、多中心的队列，并在完全独立的数据集（不同的医院、地理区域或时间段）上进行外部验证（[12]）（[11]）。
临床效用和结果：仅准确性可能无法预测临床益处。监管机构越来越多地询问：*AI是否改善了患者护理？*例如，证明AI分诊工具减少治疗时间（如某些中风应用程序）或自主读片器导致更早治疗（如MASAI乳腺筛查）远比HRROC值更具说服力。随机试验（或至少设计良好的前瞻性研究）可以捕捉这种效用。证据级别框架指出，关于患者结果（例如发病率、死亡率、生活质量）的证据可以大大加强益处的案例。
报告标准：越来越多的指南规定如何设计、进行和报告AI诊断研究。关键示例包括：
CONSORT-AI（Lancet Digital Health 2020）：CONSORT RCT清单的扩展，要求指定AI干预、算法版本、数据预处理和错误分析（[18]）。
DECIDE-AI（BMJ 2022）：AI决策支持工具早期临床评估的指南，强调算法变更的迭代评估和透明度（[18]）。
TRIPOD-ML（BMJ 2023/24）：用于报告基于机器学习的预测模型研究的扩展，重点关注模型开发和验证（[35]）。
STARD-AI（Nat Med 2020）：STARD诊断准确性报告指南的计划扩展，特别针对AI应用；涵盖校准和可解释性等问题。
NICE证据标准框架（ESF）：虽然英国特定，但ESF区分了证据级别（诊断工具的C级），从设计良好的观察性研究到证明影响的RCT，以及参考案例要求（[19]）（[33]）。
FDA指南：FDA也已发布（或正在开发）指南。例如，其2022年关于放射学中计算机辅助检测的草案指南概述了510(k)提交何时需要临床数据（[30]）。此外，FDA的良好机器学习实践（GMLP）概念强调真实世界监测计划和算法的"预定义变更控制计划"（[31]）。
国际医疗器械监管论坛（IMDRF）：IMDRF已定义SaMD，并正在召集AI/ML质量系统工作组。

表1总结了与AI诊断证据生成相关的选定框架和指南：

指南/框架	关注/范围	发布方/年份	关键方面
CONSORT-AI	涉及AI干预的RCT报告	Lancet Digital Health (2020)	扩展CONSORT以包括AI特定细节（算法、数据漂移、人机交互）（[18]）。
DECIDE-AI	AI驱动决策支持的早期评估	BMJ (2022)	设计和报告AI工具首次人体临床研究的检查表（[18]）。
TRIPOD-ML（和TRIPOD-AI）	基于ML的预测模型研究（开发/验证）	BMJ/Annals Intern Med (2023/24)	指定用于开发或验证ML模型的研究项目（例如，数据集分割、超参数）。
NICE ESF	数字健康技术的证据标准	NICE (2018；更新2021)	定义层级：DHT采用所需的临床有效性和经济证据（[19]）（[33]）。
FDA AI/ML行动计划/GMLP	AI医疗器械的质量系统原则	FDA (2021 – 进行中)	强调验证、真实世界性能监测、算法更新的预定义计划。
STARD-AI	AI工具的诊断准确性研究	Nat Med观点 (2020)	呼吁调整STARD检查表以适应AI；关注诊断中的校准、数据变化和可解释性。

表1. 与AI诊断工具评估相关的选定指南和框架示例。每项都提供了证据生成和报告的标准或检查表。关键方面栏中的引用表示来源讨论。

这些指南反映了透明度和严谨性在AI研究中至关重要的共识。正如一篇综述所指出的，CONSORT-AI和DECIDE-AI等举措正在"与关键利益相关者密切合作...生成适用于整个社区的共识"（[18]）。然而，采用情况参差不齐：许多已发表的AI研究仍未完全遵循这些指南，导致监管审查员注意到的异质性和不确定性（[11]）（[12]）。

证据生成和研究设计

为AI诊断生成可信的临床证据涉及多种研究设计。理想情况下，开发路径从临床前验证到临床验证，最终到结果研究，每一步都具有适当的严谨性。我们概述了常见阶段及其考虑因素：

计算机模拟和回顾性验证

概念：使用现有数据集（通常是完全标注的）评估AI模型，以估计性能指标。这通常是第一步，类似于技术验证。

数据来源：可能包括公共数据集（例如公开可用的影像集合）或机构数据队列。例如，许多早期AI诊断论文使用回顾性影像档案进行训练和测试。然而，Xu等人警告说，良好标注的公共数据集仍然有限（[36]）。
性能指标：灵敏度、特异度、阳性预测值、AUC、F1分数等。交叉验证和保留测试集很常见。推荐使用校准图（预测与实际概率）和决策曲线分析以获得完整性。
局限性：如果数据有限或不多样化，过度拟合是一个主要风险（[36]）。即使内部验证上的高AUC也不能保证真实世界成功。关键失败模式包括缺乏外部有效性：例如，在一家医院CT机器上训练的算法可能在不同机器上表现不佳。还存在"数据泄漏"或偏见的趋势：回顾性队列通常排除边界情况或存在谱系偏见（[12]）。
监管观点：此类研究是必要的，但仅是初步的。FDA通常期望至少进行"临床性能评估"以配合AI影像的510(k)（[30]）。一些FDA指南表明，如果数据库稳健，回顾性数据可接受用于初始批准（例如放射学计算机辅助检测指南）。

前瞻性临床验证（In-Clinico研究）

概念：在临床环境中前瞻性地评估AI工具。这包括AI集成到实践中（即使结果未被使用）或前瞻性收集样本的研究。

非随机试验/队列：许多监管批准依赖于前瞻性观察性研究。例如，IDx-DR关键试验是一项前瞻性单臂研究：初级保健诊所招募了没有已知DR的患者，AI的决策与金标准评分员评估进行了比较（[37]）。同样，一家公司可能会进行前瞻性"静默模式"推出，AI在后台运行，而医生做出常规诊断；差异随后被分析。
随机对照试验（RCTs）：证明对护理影响的黄金标准。在AI背景下，RCT可以随机分配患者或提供者使用AI或标准护理。一个例子是上面描述的AI乳腺X光检查MASAI试验，该试验将筛查单位随机分配给AI辅助阅读或标准阅读（[9]）（[10]）。RCT控制混杂因素，并可以测量病灶检出率、假转诊率、诊断时间和资源利用等终点。
试验设计考虑因素：协议必须预先指定主要结果（不仅仅是AUC）和分析计划。SPIRIT-AI和CONSORT-AI指南鼓励详细说明AI如何锁定（试验期间无变更）、如何部署以及如何处理临床医生培训（[18]）。
RCT的监管作用：虽然并非普遍要求（特别是对于低风险支持工具），但RCT或对照研究数据可以加速接受。例如，2023年，FDA授予AI脓毒症检测工具新技术附加支付（NTAP），显然是基于其改善患者结果的证据，突显了支付方也寻找临床效益证据（[38]）。

真实世界和上市后研究

即使在监管批准后，证据生成仍在继续：

上市后监测：监管机构通常要求上市后监测计划。消费者反馈、不良事件报告和部署环境中的性能审计有助于发现数据漂移、罕见错误等问题。AI法案将要求对高风险AI医疗器械进行额外的上市后监测。
注册表和大数据：卫生系统或联盟可能会建立跟踪AI工具使用和结果的注册表。例如，糖尿病视网膜病变的AI可能在大型糖尿病筛查项目中被监测，以测量真实世界的灵敏度和转诊影响。
技术维护：如果AI工具被更新（例如，在更多数据上训练的新模型），监管机构可能将其视为需要新证据或简化审查的新迭代。FDA即将推出的"预定义变更控制计划"概念解决了制造商应如何规划未来更新的问题。
可重复性：在独立环境中复制性能是证据质量的一部分。例如，Viz.ai LVO工具在166家医院的多中心研究发现，卒中治疗时间一致减少（[39]）。（2023年新闻报道的数据表明门到穿刺时间节省了约30-40分钟（[39]），后来在同行评审的单中心研究中得到证实（[40]）。）

统计考虑因素

设计证据生成还涉及统计严谨性：

样本量和功效：诊断准确性研究需要足够的病例（阳性和阴性）以精确估计指标。样本量计算应基于预期患病率和所需的置信区间。功效不足的研究可能导致误导性的宽置信区间。
偏见控制：随机化是最好的控制；如果未使用，应考虑仔细的队列匹配和调整（或病例对照设计）。交叉验证必须避免数据泄漏。
多重比较和过度拟合：当测试许多模型或截断点时，需要校正或保留测试集以避免乐观偏见。
报告不确定性：所有性能数字都应携带置信区间。决策应考虑AI结果固有的随机性。
卫生经济学：越来越多的证据档案包括成本效益分析。为了使卫生系统投资，他们寻找AI工具如何改变住院时间、减少随访等数据。

案例研究和示例

为了使这些概念具体化，我们研究了几个高知名度的AI诊断工具作为说明性案例研究。每个都突出了特定的证据策略和监管结果：

1. IDx-DR：自主糖尿病视网膜病变检测

概述：IDx-DR（由Digital Diagnostics开发，前身为IDx）在2018年成为FDA授权的首个自主AI诊断系统（[7]）。它旨在对初级保健中拍摄的眼底照片进行处理，并输出二进制结果：可转诊DR或否。

临床试验证据：FDA批准基于一项关键的前瞻性研究，涉及900名糖尿病患者，此前均未被诊断为DR（[37]）。患者接受视网膜成像，IDx-DR的输出与使用ETDRS金标准的专家阅读中心评分进行比较。主要终点是证明检测轻度以上DR的灵敏度>85%和特异度>82.5%。结果非常积极：IDx-DR实现了87.2%的灵敏度（95% CI 81.8-91.2%）和90.7%的特异度（95% CI 88.3-92.7%），超过了两个预设阈值（[7]）。其可分级图像比例（可分级图像比例）也非常高，达到96.1%。该试验在FDA批准后立即发表在NPJ Digital Medicine上（[7]），报道指出900名患者的试验"超过了灵敏度和特异度的预设终点"（[8]）。这项高质量试验（初级保健患者的随机抽样）提供了真实世界性能的证据，FDA在其摘要中引用了这一点（通过AI赋能设备清单）。

真实世界性能：随后的研究检查了IDx-DR在实践中的表现。2026年的一项德国研究报告称，当排除不可分级图像时，该系统对严重DR的灵敏度高达94.4%，特异度为90.5%（[41]）。然而，该研究也突出了图像质量问题：当包括不可分级病例时，灵敏度下降。这反映了一个重要的证据点：前瞻性试验对图像捕获有严格的人员培训，而真实世界站点各不相同。此类上市后证据突显了稳健的数据采集协议作为临床效用证明的一部分的必要性。

监管影响：IDx-DR的批准表明FDA愿意接受前瞻性试验数据。Digital Diagnostics在研究开始前锁定了算法，并将其视为"成品设备"。试验的成功意味着Medicare在2020年授予该系统新技术附加支付（NTAP），认可了临床效益。更广泛地说，IDx-DR树立了一个先例：未来的自主诊断旨在模仿这种RCT式证据的方法。

2. Viz.ai LVO：AI驱动的中风分诊

概述：Viz.ai的软件自动读取头部CT血管造影以检测疑似大血管闭塞（LVO）中风，然后向神经介入团队发出警报。它不独立做出诊断，而是作为关键的快速分诊辅助工具。

证据：Viz.ai在2018年通过510(k)（安全基准）获得FDA批准。批准前的已发表数据包括显示CTA中检测LVO的高灵敏度（90-95%）的回顾性队列。上市后，多项真实世界研究报告了患者结果效益。例如，Hassan等人在2022年Stroke期刊上报告称，在综合中风中心实施Viz.ai显著缩短了门到穿刺时间86.7分钟（中位数206.6 → 119.9分钟，p<0.001），并提高了再灌注率（TICI 2b-3）（[40]）。作者得出结论，"纳入该软件与治疗时间的显著改善相关...以及显著更高的充分再灌注率"（[42]）。重要的是，这不是一项随机研究，而是前后设计。尽管如此，它提供了AI分诊在真实医院环境中加速护理的证据。

其他多中心注册表（未经同行评审）同样报告了数百个站点的治疗时间减少和更好的结果（[39]）。作为对这些发现的回应，采用Viz的医院被支付方（例如保险公司）要求监测门到针时间，与监管机构强调结果而非仅准确性相一致。

监管和临床经验教训：Viz.ai的例子显示，RCT在某些用例中不太常见；然而，如果系统化，观察性数据可以具有说服力。监管机构期望此类工具支持其主张（参见FDA指南：高风险、时间紧迫的CDS不符合非设备标准，因此需要数据以确保安全）。事实上，Weissman等人指出，"对于Viz-type工具，需要前瞻性、多中心、对照研究，样本量更大"（[43]）。Hassan研究本身指出了确认效益需要更大规模的试验。简而言之，AI用于工作流程改进仍需要可衡量的临床效益证据。Viz.ai例子中的大幅门到穿刺时间减少和更高的再灌注率提供了一个先例，即观察性结果数据可以满足证据需求，尽管对于更广泛的主张可能需要随机或对照研究。

3. 丹麦AI驱动的胃肠病学（谨慎示例）

概述（假设/说明性）：相比之下，考虑一种胃肠内窥镜AI工具（例如用于息肉检测）在实践中进行测试的情况。最近的研究表明，依赖此类AI可能会无意中降低人类技能：2025年《柳叶刀胃肠病学》的一项研究报告称，使用AI辅助结肠镜检查的医生在没有AI的情况下行动时"技能下降"，更难发现癌症（[44]）。

经验教训：此案例突显了临床证据的细微差别。即使AI在统计上表现良好，其对临床医生实际行为的影响也很重要。如果AI助手导致医生变得自满或技能下降，可能会带来下游安全风险。这些发现加强了纵向证据和人因研究的论点，而不仅仅是纯准确性统计数据。监管框架开始考虑这些方面：欧盟AI法案对人为监督的强调（要求对于"关键、时间紧迫的任务"，用户必须能够独立审查AI建议（[25]））暗示证据还必须解决临床医生如何与AI互动。总之，真实世界证据必须捕捉的不仅是AI准确性，还有对护理的意外影响。

4. 乳腺X光筛查（MASAI试验）

概述：通过乳腺X光检查进行乳腺癌大规模筛查传统上由人类放射科医生完成。最近的欧洲试验开始测试AI作为第二读片人或筛查者。瑞典的MASAI试验将10万多名女性随机分配至标准双人阅读或AI辅助阅读。

结果：完整的MASAI结果（Lancet 2026）发现，AI辅助筛查比标准护理多检测出29%的癌症，同时未增加假阳性（[9]）（[45]）。更引人注目的是，在接下来的两年中，接受AI筛查的女性间隔癌症（在预定筛查之间发现的）减少了12%（[46]）（[10]）。具体而言，AI组观察到的晚期/侵袭性癌症减少了27%，表明AI阅读与早期发现相关（[10]）。这些发现超越了测试准确性，显示了人群层面的效益（长期预期死亡率降低）。

监管影响：虽然这些结果对于任何一种AI工具的监管批准并非必需（欧洲设备可以在CE标志下使用现有软件），但它们对采用指南具有巨大影响。此类RCT证据现在使卫生系统有信心大规模部署AI；事实上，这些试验的作者认为，效益的规模证明在筛查项目中实施AI是合理的（[46]）。对于监管机构和支付方，这设定了一个基准：大型、前瞻性试验与临床终点可能成为高影响筛查AI的预期证据，就像为新的筛查药物或设备所需的一样。

挑战和考虑因素

在整个证据生成过程中，必须解决许多挑战：

数据质量和偏见：如前所述，数据集通常存在不平衡、多样性有限和标注错误（[12]）。许多综述报告了文献中的谱系偏见和过度拟合（[12]）。为了满足监管机构的要求，开发人员必须策划代表性队列并透明报告数据集来源。跨种族验证越来越被认为是强制性的。
可解释性与证据：与药物不同，AI的内部逻辑可能不是人类可读的。监管机构仍需要输出的合理性。例如，FDA 2022年AI指南建议包括临床性能评估并解释算法决策阈值（[30]）。声称"黑箱"豁免证据是不可接受的。相反，开发人员应通过医生监督或至少对部分病例进行人工审查以进行合理性检查来补充AI结果。
性能漂移和版本控制：AI模型可能会随着时间或新数据类型（例如新扫描仪型号、新病原体）而退化。需要持续性能监测。监管机构期望有一个计划：一些司法管辖区（美国、欧盟）提出了"预定义变化控制"机制，尽管细节正在演变。无论如何，上市后研究必须跟踪随时间推移的性能指标。
临床技能退化：结肠镜检查的例子突显了证据必须考虑系统效应。如果过于信任AI，可能会导致盲点。因此，证据要求可能包括衡量临床医生依赖性和备用性能的措施。
公平性和安全性：新兴法规（欧盟AI法案、FDA倡议）要求证明模型在各子组中的公平性。研究应按年龄、性别、种族分层结果以寻找差异。记录检测和缓解偏见的步骤（如AI法案所要求的（[6]））可能成为证据包的一部分。

讨论与未来方向

AI诊断证据要求的格局是动态的。关键的未来方向包括：

监管演变：欧盟AI法案（2024-25年生效）将很快对"高风险"医疗AI施加明确义务，包括上市后监测、模型决策原理的强制记录（在某种程度上），以及对异常的响应。FDA正在为AI/ML SaMD持续学习制定拟议规则。国际协调努力（IMDRF、WHO）最终可能会在各司法管辖区标准化期望。
持续学习系统：传统的证据模型假设静态设备。即将到来的AI可能会随着新数据不断更新（所谓的"自适应AI"）。新的监管范式（FDA的"预定义变更控制计划"）将需要初始证据和维护证据的计划。持续的证据生成（类似于药物的上市后监测）将至关重要。
汇聚的数据生态系统：联邦学习和大型EHR数据集可能允许更有效的验证。未来的证据生成可能会利用大型卫生网络（例如MIMIC、国家注册表）进行多站点验证，而不集中数据集，同时解决隐私和泛化问题。
与临床工作流程的整合：证据生成将越来越多地涉及人因因素。为了使AI被接受，研究还必须展示它如何无缝集成到临床医生工作流程中。技术正在向更具可解释性（例如热图、解释）的方向发展，以帮助接受。未来的指南可能会正式要求演示UI/UX研究。
经济和伦理结果：除了临床指标外，关于成本效益和伦理合规性的证据将影响采用。例如，NICE和其他HTA机构期望健康影响建模。透明度（开放模型或已发布的算法）可能成为可信度的一个因素。
公众信任和责任：最终，强有力的证据有助于在患者中建立信任并转移责任担忧。关于AI误诊的判例法正在出现；严格验证的证据可能是关键防御。监管机构甚至可能考虑要求公开报告AI性能。

总之，AI诊断工具具有巨大的潜力，但需要与其主张相称的严格临床证据。全球监管机构正在朝着强调代表性数据、性能透明度和可证明的患者效益的标准迈进。早期采用者如IDx-DR和Viz.ai证明，设计良好的研究——最好是前瞻性研究并具有硬性临床终点——是可行且有价值的。正如Weissman等人所断言的，最大的障碍是证据：工具正在迅速开发，但由于"投资速度超过证据生成"，担忧仍然存在（[21]）。弥合这一差距将需要合作：监管机构必须继续澄清期望，开发人员必须投资于高质量试验和真实世界研究。通过优先考虑强有力的证据——在新兴框架和早期AI诊断经验教训的指导下——医学界可以确保AI辅助而非破坏患者护理。

结论

人工智能诊断工具有望通过数据驱动的洞察增强临床专业知识，从而改变医疗保健。然而，截至2026年，这一转型取决于建立坚实的临床证据。证据不仅必须证明AI产生准确的诊断（灵敏度、特异度、AUC），还必须证明它在实践中改善患者结果或工作流程。在各司法管辖区，监管机构强调这一点：FDA的设备批准需要与风险相适应的评估（尽管通常通过适度的510(k)途径），而欧盟的MDR和新的AI法案要求使用代表性数据进行"强有力的临床证据"（[3]）（[6]）。NICE等卫生机构要求类似的临床和经济效益证明（[19]）（[33]）。

我们对当前文献和示例的回顾表明，设计良好的证据可以为AI采用铺平道路。IDx-DR和MASAI试验说明了前瞻性研究数据如何满足监管标准并影响临床实践（[7]）（[9]）。Viz.ai的经验表明，仔细收集的真实世界数据可以在紧急护理环境中验证有效性（[40]）。然而，我们也指出了普遍的不足：大多数已发表的AI研究仍然是回顾性的和非标准化的（[11]）（[12]）。为纠正这一点，我们强调遵守报告指南（CONSORT-AI、DECIDE-AI、STARD-AI等）以及参与多样化、临床现实的数据集。学术界、工业界和监管机构的利益相关者必须合作，制定迭代、透明的评估框架（[18]）（[12]）。

展望未来，AI的证据生成必须跟上技术生命周期的步伐。自适应AI系统、数据共享的进步和不断变化的患者安全担忧意味着证据将是一项持续的承诺，而不是一次性障碍。上市后研究的激励、跨境数据倡议，也许还有独立认证机构，都可以在确保持续验证方面发挥作用。

总之，AI诊断工具的临床证据要求严格但公平：它们旨在确保只有被证明安全、有效和无偏见的AI系统才能进入诊所。随着AI变得越来越自主和广泛，这些要求将在创新和患者保护之间取得至关重要的平衡。通过今天致力于严格、基于证据的验证，开发人员和卫生系统可以帮助AI诊断实现其改善结果、降低成本和提高所有患者护理质量的潜力。

【全文结束】