国内健康环球医讯家医百科药品库医药资讯

负责任的人工智能在医疗保健中的应用——深入探讨真实世界数据与证据

Towards responsible artificial intelligence in healthcare—getting real about real-world data and evidence | Journal of the American Medical Informatics Association | Oxford Academic

美国英语人工智能在医疗保健
新闻源:unknown
2025-09-29 01:01:55阅读时长23分钟11359字
医疗保健人工智能真实世界数据真实世界证据负责任AI数据素养偏见隐私伦理利益相关方管理医疗AI应用

内容摘要

本文探讨了在医疗保健中负责任地应用人工智能时如何处理真实世界数据与证据的关键挑战。多利益相关方专家小组确定了数据文档不足、偏见识别与缓解、隐私伦理考量以及责任结构缺失等核心问题,并提出了建立元数据标准、开发透明度框架、实施偏见检测策略和建立持续监测机制等具体建议,为开发安全、有效、公平和可信赖的医疗AI应用提供了全面框架,对推动医疗AI的负责任发展具有重要指导意义。

摘要

背景

在医疗保健的人工智能(AI)应用中使用真实世界数据(RWD)提供了独特的机会,但也带来了与可解释性、透明度、安全性、有效性、偏见、公平性、隐私、伦理、责任和利益相关方参与相关的复杂挑战。

方法

组建了一个由医疗保健专业人员、AI开发者、政策制定者和其他利益相关方组成的多利益相关方专家小组。他们的任务是识别关键问题并制定共识建议,重点关注医疗AI中RWD的负责任使用。该小组的工作包括一次现场会议和研讨会,以及数月的深入讨论。

结果

小组的调查结果揭示了几个关键挑战,包括数据素养和文档的必要性、偏见的识别与缓解、隐私和伦理考量,以及利益相关方管理的责任结构缺失。为解决这些问题,小组提出了一系列建议,如采用RWD源的元数据标准、开发透明度框架和类似"营养标签"的说明标签、提供跨学科培训材料、实施偏见检测和缓解策略,以及建立持续监测和更新流程。

结论

专注于医疗AI中RWD负责任使用的指南和资源对于开发安全、有效、公平和可信赖的应用至关重要。所提出的建议为解决医疗AI整个生命周期的综合框架提供了基础,强调了文档、培训、透明度、责任和多利益相关方参与的重要性。

真实世界数据、真实世界证据、人工智能、负责任的AI、AI责任、AI透明度

引言

利用人工智能(AI)从现有真实世界数据(RWD)生成真实世界证据(RWE)为加速医疗保健进步提供了独特前景,使数据分析和解释能够达到前所未有的规模。然而,在医疗保健中使用RWD开发AI应用也带来了必须理解和解决的复杂挑战,包括但不限于可解释性、透明度、安全性、有效性、偏见、公平性、隐私、伦理、责任和利益相关方参与。

"RWD"一词指在常规医疗保健互动过程中收集或记录的任何数据,而非在研究协议背景下收集的数据。RWD涵盖各种信息,包括电子健康记录(EHR)、保险索赔、实验室检测结果、来自可穿戴或植入设备的患者生成数据,以及调查和数字健康应用程序。RWD分析可以提供RWE,以促进研究、支持医疗保健决策和创新,并为公共政策提供信息。RWD和RWE这两个术语有时可以互换使用。然而,认识到它们的根本差异很重要,正如美国食品药品监督管理局(FDA)在其真实世界证据项目框架中所述。RWD代表在患者健康和护理交付过程中收集的数据,而RWE则反映基于RWD分析的关于干预措施使用和潜在益处的临床证据。

一些研究说明了在医疗AI应用中使用RWD时与偏见和隐私相关的关键挑战。Obermeyer等人的研究展示了一种使用RWD的风险:健康状况替代指标的不当选择导致了医疗保健获取和利用方面的差异。作者发现,一种广泛使用的商业算法系统性地低估了黑人患者与白人患者相比的健康需求,因为该算法依赖医疗保健成本作为健康需求的替代指标。此例凸显了仔细检查RWD中潜在偏见的重要性,并在AI模型开发和部署过程中制定缓解这些偏见的策略,以及确保患者数据使用透明度的必要性,以防止AI模型无意中导致特定患者群体的不公平影响。

类似地,Esteva等人的研究发现,使用智能手机照片训练的用于检测皮肤癌的深度学习模型在较深肤色图像上的表现明显较差,可能是因为训练数据中这些肤色的代表性不足。

另一个例子是广泛使用的弗雷明汉心脏评分,这是一种用于预测临床实践中心血管事件风险的评分系统。该评分基于在马萨诸塞州弗雷明汉进行的纵向研究,主要因为当地医生的参与以及与马萨诸塞州总医院和哈佛医学院心脏病专家的邻近关系。弗雷明汉是一个主要是欧洲后裔的中产阶级社区,后来研究表明该评分在黑人患者中的表现不如在白人患者中,表现出风险的过度和低估。

这些例子凸显了RWD中的偏见如何被引入并导致模型表现不公平,应有助于强调在利用RWD进行AI应用时主动识别和缓解偏见并保护患者隐私的重要性。

AI在医疗保健中开发和部署的整个生命周期各阶段的原则已经在跨组织联盟和专业协会(如美国医学信息学协会AMIA)中有所阐述。AMIA AI评估展示等活动已开展,以帮助识别医疗AI开发和部署中的最佳实践。

本文旨在识别与医疗AI中RWD和RWE使用特别相关的挑战,并提出指南和其他建议,以促进其在研究、诊断、治疗建议和预测分析中的负责任使用。这些建议旨在确保AI创新遵守严格的保障和隐私标准,并有明确的责任结构支持,以保证安全、有效、公平和可信赖(SEET)的使用,同时与多利益相关方优先事项保持一致。

方法

进行了一项多利益相关方专家共识流程,以制定关于医疗AI应用伦理部署的建议,重点关注在三个特定领域确保AI解决方案遵守SEET标准的主要挑战和潜在策略:真实世界数据和证据(RWD/RWE)的使用、临床决策支持和消费者健康应用。共识流程包括教育网络研讨会、题为"信任蓝图"的现场共识会议,以及数月的持续讨论。该会议汇集了50位专家,包括临床医生、信息学研究人员、AI科学家、解决方案架构师、法律和政策专家、患者、患者和消费者健康倡导者以及行业领导者。AMIA和DCI网络(贝斯以色列女执事医疗中心临床信息学部的一项倡议)的规划委员会确定了参与者。

该流程涉及多个阶段,首先是一系列教育网络研讨会,介绍基本概念和关键挑战。随后是现场会议,包括小组讨论、分组会议和全天工作坊,共同开发初始框架。使用自然语言处理(NLP)分析会议记录,提取关键主题,提交给小组讨论并制定建议,以解决AI应用中RWD和RWE使用方面的挑战。虽然参与者对使用记录的同意仅限于总结,但关键点被综合到本文中,以反映商定的建议。这些建议通过几个月定期在线小组会议和结构化审议流程进行了迭代完善。从在医疗保健、AI伦理和治理方面具有专业知识的其他利益相关方那里征求了反馈,确保对实际、临床和伦理目标有全面见解。受邀参加会议的外部同行也通过他们的反馈帮助完善了框架。在促进讨论中解决了分歧,参与者提出了他们的观点和理由。中立的主持人确保了平衡的代表性,并引导小组达成共识。

围绕财务激励(特别是在AI货币化方面)的伦理问题进行了讨论,所有成员披露了任何潜在的利益冲突或利益,并将其包含在本文中。这项工作没有得到任何资金来源的支持,作者代表了他们自己的观点,而非雇主的观点。确保透明度和缓解利益冲突对于保护患者权利至关重要。

这四个月的审议过程产生了一个协作开发、仔细审查的框架,揭示了三个不同的治理模型,针对RWE、CDS和CH领域的特定要求。每个治理模型都反映了其各自领域的独特需求和挑战,为医疗保健中AI的伦理部署提供了结构化基础。AI在CDS和消费者健康方面的建议见其他论文。本文报告了关于医疗AI中RWD和RWE使用的建议,特别强调RWD,因为作者认为在选择、评估和验证用于开发AI应用的数据的适当性时会出现许多严重挑战。

结果

小组讨论突显了RWD文档中的差距,强调了可查找、可访问、可互操作和可重用(FAIR)原则的重要性。这些见解为解决数据偏见和利益相关方责任提供了具体建议。该小组确定了在医疗保健中结合AI使用RWD时需要解决的最关键问题。

  1. 数据素养和文档

绝大多数RWD的特征和背景并未得到充分记录,无法让不同类型的用户理解其确切含义和适当用途。医疗AI应用开发人员和用户可能需要更多背景或培训,以了解任何给定数据集对每个医疗保健环境中特定问题的适用性限制,这包括数据来源、护理类型、人口、地理位置——包括地理和护理环境。

  1. 偏见

RWD反映了医疗保健中存在的社会问题和系统性偏见,这影响了人们与医疗系统的互动方式、时间、地点以及他们可能接受的护理类型和水平,以及他们的结果。如果得到识别和解决,RWD中的这些偏见可能导致不准确和不公平的应用,无论是在AI应用首次训练时,还是在初始实施后该应用发展或移植到新环境时。基于专家讨论确定了关键问题,并对照现有文献进行了验证。

  1. 隐私和伦理

按定义,RWD代表在与医疗系统互动或以任何产生数据的方式解决健康相关问题(如使用健康应用程序)的个人上或关于他们的数据。虽然在同意护理过程中可能涵盖了在AI应用中使用患者数据,但尚不清楚所有以此方式使用的RWD是否受到任何隐私或伦理监督。此外,随着更多患者和消费者直接与AI互动,将需要更多关于可用应用程序及其数据使用的保障措施。

  1. 缺乏利益相关方管理的责任结构:这些问题适用于各种利益相关方,从RWD生产者、整理者和平台提供商到AI应用开发者、部署者和分发者。因此,找到能够明确最终用户责任的责任结构对于快速发展的监管和指南开发途径至关重要。

专家共识小组认识到需要一个整体的负责任AI框架,该框架遵循被接受的原则,涵盖设计、开发、验证、实施和监测的整个生命周期,并解决广泛利益相关方关于可解释性、透明度、安全性、有效性、偏见、公平性、隐私、伦理、责任和利益相关方参与的需求。该框架必须包括持续维护这种广泛利益相关方参与的流程。

作为这样一个框架的组成部分,我们在表1中提出了具体指南,以解决我们认为与医疗AI中RWD使用相关的关键问题。

表1. 医疗AI中RWD使用面临的挑战和建议

数据质量和文档---

挑战:可用数据集并非总是得到充分记录,供可能不了解数据复杂性、生成背景或关于患者特征(地理、时间、社会人口代表性)或数据源(如EHR、门诊诊所、实验室、药房等)的任何相关代表性限制的最终用户使用。

建议

利益相关方角色


设计和开发---

挑战:必须从项目开始就理解适当的指南和要求,以确保在项目的每个步骤中都采取所有适当步骤,以符合科学严谨性和透明度的要求。

建议

利益相关方角色


偏见检测和缓解---

挑战:真实世界数据(RWD)通常反映人口和背景偏见,如地理或社会人口特征,这可能会扭曲见解并导致AI模型在代表性不足的群体上表现不佳。识别和解决这些偏见对于公平的AI结果至关重要。

建议

利益相关方角色


隐私和同意---

挑战:尽管患者通常同意医疗互动和干预,但同意过程可能仅非常有限地解决其数据的二次使用,不太可能解决其数据在AI算法开发中使用的潜在用途。患者也有权知道AI是否用于他们的护理。为了建立信任,需要开发适当的流程,以告知患者、护理人员和公众关于其数据在AI应用中的使用。

建议

利益相关方角色


利益相关方教育和参与---

挑战:从个人到政府有广泛的利益相关方,他们关心如何以及何时最好地部署AI以支持医疗保健和医学研究,同样重要的是,如何以及何时不部署AI。鉴于AI开发和应用的技术性质,迫切需要为最广泛的利益相关方社区提供易于获取的教育材料和持续参与。

建议

利益相关方角色


监测和更新---

挑战:必须随时间仔细监测AI系统,以确保其评估和建议与数据随时间的演变保持同步,这可能由于人口变化、新治疗方法或实践模式而发生。一旦实施,此类系统需要随时间仔细监测,以检测和解决观察到的任何漂移或变化。此外,在一个设置或使用背景中开发和实施的工具在不同设置中可能表现不同,必须在实施前在新设置或应用中适当评估。

建议

利益相关方角色

讨论

本文提供了关于医疗AI中RWD和RWE负责任使用的建议,并基于该联盟先前关于CDS中AI和消费者健康中AI的工作。虽然SEET标准可以应用于所有三个领域(RWD/RWE、CDS和消费者健康),但未来工作应评估这些标准的跨领域实施。在"黑匣子"工具(如深度学习和生成式AI(Gen-A))中使用RWD的风险要高得多,因为不了解所使用数据的风险被放大,超出了使用此类数据和证据作为使用标准统计和分析方法,甚至更新的数据挖掘和机器学习方法得出结论的基础的经验。有两个主要原因:(1)AI算法的创建和操作方法并不总是像更传统的分析技术那样可以检查或理解;(2)所使用数据的规模和复杂性。

虽然提供了可用性和规模的优势,但RWD反映了不同人群获取、利用和接受医疗保健的固有可变性、复杂性和偏见。与实验研究数据收集(如临床试验)相比,RWD元素的背景和含义通常没有得到正式或充分的记录,因此可能需要额外的支持或信息才能充分理解。例如,实验室检测可能使用不同的方法进行,或以不同的单位报告,尤其是随着时间的推移。如果这些没有得到很好的记录、理解和在分析中考虑,用户可能会假设这些值是可比的或已经标准化,导致错误的结论。这种直接的问题可以通过基于选定特征的数据分布的初步描述性统计分析来检测。其他问题,如不同的人口代表性或不完整或不准确的社会人口特征,可能对结果的适用性产生深远影响;然而,这些问题可能更难检测,并需要特殊努力和方法来缓解。

理解源数据的特征和复杂性有助于确保利用此类数据进行训练、预测和建议的AI应用的有效性、安全性和有效性。充分理解所使用的数据是基于RWD的任何知识生成方法的基本先决条件。在AI中使用RWD和RWE的努力也将受益于通用数据模型(CDMs)的使用,如OMOP通用数据模型,这对于协调不同来源的数据至关重要。此类数据模型还能够在美欧之间实现标准化查询和数据集互操作性。

已经有许多记录在案的实例,由于为一个目的或一个人群开发的算法由于对数据含义的误解而产生了意想不到或相反的效果。Obermeyer等人的重要工作展示了不适当替代指标选择的影响,而弗雷明汉风险评分的问题则表明代表性不足如何扭曲结果。这些只是由于缺乏理解或代表性而产生问题以及可能产生的影响的两个例子。然而,可能有方法可以解决这些偏见,正如Zink等人在他们使用种族调整算法中所证明的那样。这些例子强调了人口统计子群体验证的关键需求,以及使用定制策略(如种族调整)来解决数据代表性和预测性能中不公平性的机会。

即使在涉及人员对数据分析和医疗保健领域有丰富知识和培训的情况下,类似的错误也曾经发生。随着AI应用变得更加容易获得和广泛部署,确保用户对基本科学概念(如区分因果关系和关联)有扎实的理解将变得越来越重要。

RWD源上下文细节捕获不足可能导致AI应用产生不正确、不可靠、不可重现、有偏见或不安全的输出。虽然在用于二次使用的RWD的来源、聚合和协调方面已经取得进展,但目前尚不存在明确的元数据标准和透明度框架,无法充分描述RWD以供不熟悉所使用数据复杂性的人们在不同的AI模型和场景中适当使用。2023年12月,FDA发布了一个透明度框架,用于评估RWD在RWE中的潜在使用,以支持新适应症的批准或RWE计划中规定的批准后研究要求。负责任AI的更通用版本的此类框架和RWD元数据标准对于保证将RWD用于AI应用中纳入的RWE的负责任使用至关重要。这一点尤为重要,因为应用程序开发者可能不完全理解他们正在处理的数据的性质,而临床用户可能不理解AI应用,导致不适当的设计假设和沟通不足。与AI应用互动的患者可能无法判断是否应该信任所提供的信息。

该框架对专家意见的依赖是一个限制,因为它可能无法完全解决与AI应用中RWD和RWE相关的所有挑战。在不同环境中进行经验验证对于评估其通用性和适用性至关重要。还需要定期更新,以与不断变化的政府观点保持一致,例如FDA的RWE框架,该框架强调了关于RWD的误解的重要性,并强调在定义数据来源和上下文使用方面的重要性。

还存在一些工具和流程,可以帮助确保基于或利用RWD和/或RWE的AI应用整个生命周期的适当科学严谨性。例如,监管机构(如FDA)要求的预先规范,以及专业组织强调的预先规范,可以通过使用预先定义的协议,在数据收集、分析和解释方面建立明确的方法和标准,在确保RWE研究的严谨性和透明度方面发挥关键作用,这对于保持可重复性和可靠性至关重要。

还必须仔细考虑与患者数据特定用途相关的问题,例如数字表型,定义为从个人数字设备(如智能手机和可穿戴设备)收集和分析数据。此类数据可能提供有关患者行为、活动和健康模式的宝贵见解,并可通过提供粒度、实时数据来改善对患者结果、治疗依从性和健康风险早期检测的理解,从而为RWE中的AI提供支持。然而,数字表型的使用必须优先考虑透明度和患者同意,以防止隐私侵犯。必须确保患者充分了解正在收集的数据性质、将如何使用以及谁将有权访问它。

这些问题最终影响到参与结果工具或模型的每个利益相关方和每个步骤,包括此类应用的设计、开发、测试、验证、监管、实施、使用、监测和维护。同样,利益相关方涵盖广泛的科学家、开发者、临床医生、管理员和患者。特别是,必须通过要求明确的同意协议和强大的匿名化技术来确保这些实施中的患者隐私。

结论

使用RWD生成RWE以开发和应用医疗保健中的AI提供了传统数据创建方法(如临床试验或其他创建学习型医疗保健系统的持续努力)难以匹敌的规模优势。在涉及罕见事件和诊断、更常见疾病条件的非典型表现、不良事件模式或发病率意外变化的情况下,这一点尤其正确。例子包括临床结果的上市后监测(如不良事件)、识别疾病进展的独特风险因素或预测因子、检测新发传染病,以及了解健康的社会和环境决定因素。然而,我们必须认识到,此类数据在使用上存在固有挑战——包括缺失的上下文数据、文档不足以及可能影响其代表性的上下文驱动选择偏见。虽然在使用RWD时可能会通过便利抽样、获取障碍以及代表性不足人群的有效排除引入偏见,但现在已经出现了越来越多的工具和技术来缓解偏见,只要提供足够的文档,允许开发者或用户理解特定上下文中需求的程度和性质。

本文提出的指南综合了跨关键领域的专家、多学科共识小组建议,以促进RWD在医疗AI中的负责任和伦理使用。实现本文概述的愿景将需要机构层面的数据生产者和消费者、卫生系统、学术界、科技公司、政府机构、政策制定者和其他组织利益相关方之间的跨学科公私合作伙伴关系进行持续和多因素的努力。临床专家、数据科学家、开发者、社会科学家、伦理学家、患者倡导者和最终用户等个人层面的利益相关方也是必要的。

我们认为,建立指南至关重要,以便在AI中适当评估和使用RWD,以支持医学研究和医疗保健中的各种应用。我们建议改进数据来源、上下文和元数据的文档;为数据提供者和数据使用者开发和实施培训和教育;建立针对预期使用上下文评估数据集的标准;定义适当的多利益相关方评估和验证AI输出;促进工具开发和评估所有方面的透明度;最后评估随时间的性能,特别强调将在一个设置和上下文中创建的工具应用于新设置或上下文所需的过程。

确保负责任的RWD基础AI的近期优先事项集中在文档、培训、透明度、可解释性、公平性、验证、责任、监测和更新的方法和方法上。随着时间的推移,随着更多AI应用的开发、部署和评估,这些指南将相应地得到改进和扩展。从长远来看,必须考虑自愿合规的途径,可能包括用户和模型认证的过程。

必须强调,本文主要关注小组对医疗保健中AI开发和部署的一个挑战的审议。该小组还认识到与在不同背景下(如临床决策支持、药物发现、诊断)AI技术的预期使用和应用相关的许多关键问题;可用性和工作流程集成;患者同意、隐私和伦理;以及更多将对医疗AI的负责任和有效使用至关重要的问题,无论是否涉及RWD的使用。因此,我们相信也需要一个解决医疗AI所有方面的广泛框架,并且RWD使用指南是此类框架的构建块之一。

致谢

我们要感谢David Bray博士、Tiffani J. Bright博士和Isaac Kohane博士在会议上的主题演讲。我们要感谢Rabbi Daniel Cohen和Reverend Greg Doll在关于生物伦理和AI的网络研讨会上的演讲,Luke Sato博士、Paul R. DeMuro博士和Kenneth E. White, JD在关于医疗AI:风险管理、信任和责任的网络研讨会上的演讲,Amy Price博士和Dave deBronkart(ePatient Dave)在关于医疗AI:患者视角的网络研讨会上的演讲,以及Anne-Marie Meyer博士、Mark Shapiro和Rob Stolper在关于医疗AI:真实世界数据生成和监管视角的网络研讨会上的演讲。

作者贡献

艾琳·科斯基(概念化、正式分析、方法论、撰写-初稿、撰写-审阅与编辑)、Amar Das(撰写-初稿、撰写-审阅与编辑)、Pei-Yun Sabrina Hsueh(概念化、正式分析、方法论、撰写-初稿、撰写-审阅与编辑)、Anthony Solomonides(概念化、正式分析、撰写-初稿、撰写-审阅与编辑)、Amanda L. Joseph(概念化、正式分析、方法论、撰写-初稿、撰写-审阅与编辑)、Gyana Srivastava(概念化、数据整理、方法论、项目管理、撰写-初稿、撰写-审阅与编辑)、C. Erwin Johnson(概念化、正式分析、撰写-审阅与编辑)、Joseph Kannry(概念化、正式分析、撰写-审阅与编辑)、Amy Price(概念化、正式分析、撰写-初稿、撰写-审阅与编辑)、Steven Labkoff(概念化、正式分析、方法论、撰写-初稿、撰写-审阅与编辑)、Gnana Bharathy(撰写-初稿、撰写-审阅与编辑)、Baihan Lin(正式分析、撰写-审阅与编辑)、Douglas B. Fridsma(正式分析、撰写-审阅与编辑)、Lee A. Fleisher(正式分析、撰写-审阅与编辑)、Monica Lopez-Gonzalez(正式分析、撰写-审阅与编辑)、Reva Singh(撰写-初稿、撰写-审阅与编辑)、Mark Weiner(正式分析、撰写-审阅与编辑)、Robert Stolper(正式分析、撰写-审阅与编辑)、Suzanne Sincavage(正式分析、撰写-审阅与编辑)、Tristan Naumann(正式分析、撰写-审阅与编辑)、Tayler Williams(正式分析、撰写-审阅与编辑)、Tien Thi Thuy Bui(正式分析、撰写-审阅与编辑)以及Yuri Quintana(概念化、正式分析、方法论、项目管理、撰写-初稿、撰写-审阅与编辑)

资金

无声明。

利益冲突

无声明。

数据可用性

本文中使用的所有数据已在本文中报告。本论文没有其他相关数据。当前研究期间未生成或分析任何数据集。

代码可用性

本文未产生或分析任何计算机代码。

披露声明

【全文结束】

声明:本文仅代表作者观点,不代表本站立场。

本页内容撰写过程部分涉及AI生成(包括素材的搜集与翻译),请注意甄别。

7日热榜