声称医疗AI正在改善医疗服务必须有适当的证据支持。
人工智能驱动的工具在医疗系统的各个层面正迅速普及。预测模型、决策支持工具和生成式工具已进入临床环境[1],而大型语言模型正被公众越来越多地用于寻求医疗信息和建议[2]。然而,证明人工智能工具为患者、医疗服务提供者或医疗系统创造价值的证据仍然稀缺。
尽管如此,在出版物和产品材料中,关于临床影响的说法越来越普遍,即使在何种程度的证据才能被视为可信方面尚无明确共识。结果不仅是科学上的不确定性,还常常导致过早的实施和采用。如果人工智能要真正改善医疗服务,该领域必须开始系统性、一致性地将影响声明与适当、成比例的证据联系起来。迫切需要建立一个框架,说明如何评估医疗人工智能技术、使用何种指标以及与哪些基准进行比较。
迄今为止,医疗人工智能的评估主要依赖于统计指标——如区分度、校准、敏感性和特异性——这些指标衡量计算能力和工具性能。虽然这些指标确实很重要,但它们本身并不能确立临床影响。如果输出时机不当、难以解释、执行不一致或干扰临床工作流程,一个系统可能在回顾性验证中表现非常好,但仍无法改善医疗服务。因此,当在没有更具体临床影响衡量标准的情况下采用这些工具时,医疗系统和用户可能会投资于那些实际价值最多只是不确定且可能带来重大意外后果的产品。
医学中对临床影响的声明历来要求的不仅仅是技术性能的展示。例如,药物研发通常需要逐步加强的证据才能接受临床效益,政府机构的监督机制有助于确定证据何时足以获得批准、推荐或报销。由于技术变革速度快、应用多样化以及证据生成的激励不同等多种原因,医疗人工智能领域尚未形成类似的规范。尽管监管框架正在讨论和发展中,但仍显不足[3]。已发表的研究往往强调技术有效性而非临床实用性[4]。实施决策通常在可操作性、可行性、安全性和有效性等核心问题得到充分解决之前就已做出[5]。在缺乏证据标准共识的情况下,这些决策可能更多地依赖早期采用的热情,而非一致的标准。如果没有更明确的规则和提供有力证据的直接要求,声称价值的门槛仍然过于多变。
展望未来,医疗人工智能领域必须建立一个一致的框架,将人工智能工具临床价值的声明与支持这些声明所需的适当类型证据联系起来。例如,分析性能的声明应要求在预期设置和人群中进行强有力的验证,而临床可操作性的声明则应要求证明输出可解释且能支持合理决策的证据。工作流程效益的声明应要求实施研究证明工具可以在不引入延迟、负担或意外伤害的情况下集成。改进结果或效率的声明应要求更强的前瞻性证据,包括与标准护理的比较评估(如适用)。此外,由于模型性能可能随时间变化,部署后监测应被视为机构期望,而非后期可选的补充。
拥有这样一个框架并不意味着每种人工智能工具在采用前都必须经历通常对其他医疗干预措施所要求的、直至随机对照试验的所有测试阶段。考虑到高昂的成本、支撑工具的模型快速更新以及进行此类研究所需的总体复杂性和时间,在许多情况下这是不切实际的。同时,仅接受回顾性性能作为信任的充分基础在科学上并不严谨。因此,目标应该是比例证据,即声明越强,支持它的证据就需要越强。
这一原则对所有利益相关者都有实际意义。例如,监管机构应更好地澄清哪些类别的医疗人工智能工具需要临床影响的前瞻性证据,哪些可以在更有限的声明下进入实践。医疗机构和管理者应区分试点实施、操作使用和效益证据,而不是将这些合并为单一决策。在这些环境中,证据标准应透明、针对具体声明,并随着工具的发展而开放修订。
作为研究生态系统的一部分,科学期刊有机会定义可接受的证据类型。在新兴领域,已发表的文献通常被视为确立研究或实践领域的有效证据。通过执行比例证据标准,期刊可以确保已发表的研究反映真实的临床声明,而不仅仅是技术承诺,这是《自然·医学》将继续支持的角色。
下一阶段的进展不仅取决于更好的模型和新应用,还取决于对如何定义、评估和传达临床影响有更明确的期望。如果没有声明和证据之间的明确联系,医疗人工智能可能会比其真实价值被理解的速度更快地被采用。
【全文结束】

