2025年1月7日,美国食品药品监督管理局(FDA)发布了一份名为《人工智能设备软件功能:生命周期管理和营销提交建议》的草案指南。这份备受期待的指南最初计划于2024财年(即2024年9月30日前)发布,但最终被推迟至2025财年的“A类”优先发布名单中。
该草案指南提供了关于包括人工智能(AI)功能在内的设备的营销提交(如510(k)上市前通知、上市前批准申请)内容的建议。此外,它还提供了有关整个产品生命周期(TPLC)中AI设备的设计和开发的建议。
在草案指南中,FDA多次提到其认可的共识标准数据库,并鼓励制造商在软件开发过程中使用这些标准。虽然草案指南未具体提及,但我们注意到,诸如IEC 62304(《医疗器械软件——软件生命周期过程》)、IEC 82304-1(《健康软件——第1部分:产品安全的一般要求》)和IEC 81001-5-1(《健康软件和健康IT系统安全、有效性和安全性——第5-1部分:安全——产品生命周期中的活动》)等认可的共识标准对于管理开发过程非常有用,并在其他指南中被FDA引用。此外,草案指南推广使用Q-提交计划,使制造商能够在提交中获得FDA对其AI设备软件功能元素的反馈。
范围和一般原则
该草案指南仅适用于符合《联邦食品、药品和化妆品法》(FD&C法案)第201(h)节定义的“器械”,并且是AI驱动的设备软件功能(AI-DSF)。FDA将AI-DSF定义为“实现一个或多个‘AI模型’的设备软件功能”。模型被定义为“基于新输入数据生成参考或预测的数学结构”。
草案指南针对AI-DSF组件提供了具体的建议,但也澄清了其他FDA关于营销提交的指南(如2023年6月发布的《设备软件功能的上市前提交内容》)仍然适用于AI驱动的设备。在整个草案指南中,FDA提供了链接到“其他资源”的相关指南文件。
FDA进一步承认,该草案指南主要涉及机器学习(特别是深度学习和神经网络)。迄今为止,FDA尚未授权任何使用生成式AI(GAI)技术的AI-DSF,但草案指南中的语言可能为未来使用GAI技术打开大门,这种技术利用神经网络。
尽管草案指南涉及上市后的关注事项,例如性能监测和数据漂移,FDA鼓励制造商考虑是否应在提交中包含预定变更控制计划(PCCP),并参考了FDA于去年12月发布的最终指南《AI驱动设备软件功能的预定变更控制计划的营销提交建议》(参见我们关于PCCP指南的客户警报)。
由于AI特定术语在某些方面不同于质量体系法规术语和传统软件开发生命周期(SDLC)概念,FDA在草案指南中澄清了某些术语的用法,并指出了其最近发布的《FDA数字健康和人工智能词汇表》以提供进一步澄清。此外,草案指南并未按照IEC 62304中定义的SDLC阶段进行结构化,而是根据eSTAR模板或典型营销提交的各个部分组织。在每个子部分(如设备描述、风险管理)中,FDA指示了应在提交中提供哪些推荐信息。附录A提供了推荐文档及其在营销提交中的关联部分的表格。
FDA声明,该草案指南旨在通过提供设计、开发、部署和维护AI驱动设备的建议,采用TPLC方法进行管理。FDA进一步鼓励赞助商考虑是否应将其质量体系文档中包含任何推荐的营销提交文档,如设计控制(21 C.F.R. § 820.30(g))、设计变更(21 C.F.R. § 820.30(i))、不合格品控制(21 C.F.R. § 820.90(a))和纠正及预防措施(21 C.F.R. § 820.100(a))。
设备描述
草案指南提供了一份关于AI-DSF的营销提交中应包含的信息清单,作为设备描述的一部分。该清单包括:声明设备中使用了AI、设备输入和输出、AI如何用于实现设备预期用途、预期用户及其所需的专业知识、预期使用环境、预期工作流程、安装和维护程序以及任何校准或配置程序。此外,如果设备具有多个连接的应用程序和独立界面,FDA建议设备描述应涵盖所有应用程序。草案指南允许使用图形、图表、插图、屏幕截图或视频演示来支持设备描述。正如设备描述的要素所暗示的那样,AI从来不是设备的全部,而是医疗设备的一个组成部分(或IEC 62304术语中的“软件项”)。因此,设备描述必须概述整个设备,而不仅仅是AI组件。
用户界面和标签
草案指南将用户界面描述为“用户与设备之间的所有交互点,包括设备的所有元素(包括包装和标签),培训以及所有物理控制和显示元素。”FDA建议用户界面应设计为在整个使用过程中提供重要信息。附录D提供了可用性评估考虑因素的详细信息。
草案指南建议在软件文档部分的软件描述中包含用户界面的描述,这可能包括图形表示、书面描述、操作顺序概览、输出格式示例(如示例报告)以及设备演示(如通过录制视频)。
草案指南解释说,设备的用户界面包括标签,但标签应在营销提交的单独标签部分提供。标签应以适当的格式和阅读水平提供以下信息:“设备中使用了AI、模型输入、模型输出、自动化、模型架构、模型开发数据、性能数据、设备性能指标、性能监测、所有已知限制、安装和使用、定制、提供模型输出背景的度量或可视化以及患者/护理人员信息。”FDA建议在设备标签中使用“模型卡”来传达有关AI驱动设备的信息,并在附录E中提供了示例模型卡(下文将进一步讨论模型卡)。
风险评估
与包含软件的其他设备一样,草案指南指出,AI驱动的设备应包括一个风险管理文件,考虑到FDA关于《设备软件功能的上市前提交内容》和ANSI/AAMI/ISO 14971(《医疗器械——风险管理在医疗器械中的应用》)的指南。FDA还认可了AAMI CR 34971(《ISO 14971在人工智能和机器学习中的应用指南》)。风险评估应考虑整个TPLC中的危害,并将风险控制与用户界面要求联系起来,特别强调理解使用或解释设备所需的信息。
对于AI驱动的设备,FDA表示,理解使用或解释设备所需的信息相关的风险尤为重要。风险管理文件应包括对任何风险控制的解释,包括解决已识别风险的用户界面元素(如标签)。
数据管理
草案指南解释说,对于AI驱动的设备,模型(即算法和训练数据)是设备作用机制的一部分。因此,FDA建议清楚描述用于开发和验证AI驱动设备的数据管理实践和特征。FDA表示,审查员将评估用于测试AI-DSF的数据的质量、多样性和数量,以评估AI驱动设备的安全性和有效性。数据管理在识别和减轻偏差方面也非常重要,通过在训练和验证数据集中包含代表性数据。制造商应提供证据,证明训练和验证数据集之间有足够的分离,以解决偏差和过拟合问题。
在提交中,FDA建议在软件描述部分包括有关数据收集(如数据收集方式、数据集大小、合成数据的使用)、数据清理/处理、设备训练或验证的参考标准(即真实来源)、数据注释(包括负责注释数据的人员的资格和培训)、数据存储、管理以及数据的独立性(包括训练、调整和验证数据集的分离)以及数据对预期使用人群的代表性(包括对非美国数据与美国人口的评估)的信息。草案指南在每个数据管理类别中提供了具体的内容建议。
模型描述和开发
软件描述部分应包括一个专门的模型描述子部分,说明模型的技术方面及其开发方式,包括其偏差和局限性。当多个模型作为AI驱动设备的一部分使用时,FDA建议软件描述应包括一个图示,说明模型输出如何组合以创建设备输出。
软件描述应包括对每个用于AI驱动设备的模型的解释,包括模型输入和输出的描述、模型架构、特征、特征选择过程以及用于模型设计和优化的任何损失函数,以及模型参数。如果AI驱动设备具有可定制的功能,赞助商应包括模型中允许和控制自定义的技术元素的描述。软件描述还应包括质量控制标准或算法的描述,以及应用于输入和/或输出数据的方法(如预处理)。
此外,软件描述应包括对模型如何训练(如优化方法、训练范式)的解释、调整评估获得的指标和结果、预训练模型、集成方法、如何确定任何阈值以及任何模型输出的校准。
验证
在草案指南的引言中,FDA澄清了AI社区和设备上市前提交中使用的“验证”一词的不同含义。AI社区通常将“验证”用于数据整理或模型调整,可以与模型训练结合以优化模型选择。相比之下,FDA在21 C.F.R. § 820.3(z)中定义了“验证”,即“通过检查和提供客观证据确认特定要求能否持续满足特定预期用途。”
对于AI驱动的设备,草案指南解释说,验证包括确保设备能安全有效地执行其预期用途(包括用户是否能一致、正确地接收、理解、解释和应用与AI驱动设备相关的信息),以及建立设备的相关性能规范能否持续满足。FDA表示,性能验证和人体因素验证有助于提供设备在现实环境中表现的信息。性能验证确认设备规格是否符合用户需求和预期用途,并且实施的性能要求能否持续满足(详见草案指南附录C)。人体因素验证确认所有预期用户能否在使用设备时实现特定目标,并能持续安全有效地与设备互动(详见草案指南附录D),符合FDA的人体因素指南文件。
草案指南解释说,验证方法将因设备预期用途不同而异,可能来自非临床实验室或分析研究、临床前动物研究、临床性能研究、临床结局研究或某种组合。软件测试作为验证和确认的一部分的章节应在提交的软件文档部分包括研究协议、研究设计细节和统计分析计划。研究结果应包括足够的亚组分析和对相关人口统计学的评估,以及对设备重复性和再现性的评估。草案指南再次强调了使用独立数据集进行性能验证的重要性。
设备性能监测
根据FDA对AI-DSF的TPLC方法,上市前提交必须解决AI驱动设备在现实环境中的性能及其随时间变化或退化的风险(即“漂移”)。我们认为,对上市后性能监测的重视部分是因为目前尚不清楚用于医疗器械的AI模型的上市后性能与其原始批准或许可的性能规范之间的关系。当未来用于医疗器械的AI模型变得更加适应(即根据实际数据在其运行环境中自行更改)时,这个问题尤为严重。
FDA建议制造商主动监测、识别和解决设备性能变化。草案指南承认,FDA通常不会在审查上市前提交时评估质量体系合规性。然而,FDA可能会审查提交中的制造商质量体系的细节,以确保设备有充分的持续性能。此外,草案指南澄清,性能监测计划(虽然建议所有提交都包括,但通常不要求510(k)上市前通知,但对于De Novo请求(作为特殊控制)和上市前批准(PMA)申请可能是必需的)。
FDA建议提交中包含的风险管理文件应包括性能监测计划。这些计划应包括描述评估模型性能变化及其潜在原因的数据收集和分析方法;稳健的软件生命周期过程,包括设备使用时的监测机制;以及部署更新、缓解和纠正措施以解决性能变化的计划。解决性能变化所需的某些行动可能不需要新的提交,具体取决于FDA关于《何时提交510(k)以更改现有设备》(2017年10月)和《何时提交510(k)以更改现有设备的软件》(2017年10月)的指南,或根据FDA授权的PCCP采取的行动。
网络安全
近年来,尤其是随着FDA发布关于上市前网络安全的指南文件(参见FDA,《医疗设备中的网络安全:质量体系考虑和上市前提交内容》(2023年9月)),FDA一直关注网络安全在评估包含软件的医疗设备上市前提交中的重要性。
符合《联邦食品、药品和化妆品法》第524B(c)节定义的“网络设备”的AI驱动设备的赞助商必须在上市前提交中包括有关AI风险(即漏洞)可能受到网络安全威胁影响的详细信息,如数据中毒、模型反转/窃取、模型规避、数据泄漏、过拟合、模型偏差和性能漂移。
在上市前提交中,FDA建议赞助商在网络安全/互操作性部分包括:网络安全风险管理报告和其他提交部分中与AI网络安全相关的额外元素;如何进行网络安全测试以应对与模型相关的风险;涵盖AI启用考虑因素的“安全用例视图”;以及描述实施的控制以应对数据漏洞和泄漏。FDA还建议赞助商参照上述2023年上市前网络安全指南(“2023年上市前网络安全指南”)中的控制建议。基于我们在FDA缺陷信函中的经验,2023年上市前网络安全指南中未在草案指南中提及的三个建议在网络安全/互操作性部分的上市前提交中尤为重要:
- 威胁模型(带漏洞评估),
- 软件物料清单(SBOM),
- 安全架构视图的完整集合(全局系统视图、多患者伤害视图、更新/补丁视图和安全用例视图)。
正如2023年上市前网络安全指南所引用的,我们还建议制造商将IEC 81001-5-1(《健康软件和健康IT系统的安全、有效性和安全性——第5-1部分:安全——产品生命周期中的活动》)纳入其软件开发过程和质量体系。
公众提交摘要
设备上市前提交通常包括公众提交摘要(例如510(k)上市前通知的摘要)。草案指南强调了AI-DSF在公众摘要中的透明度的重要性。具体而言,草案指南指出,公众摘要应包括以下内容:声明设备中使用了AI、解释AI如何用于设备的预期用途、描述模型类别(如卷积神经网络、递归神经网络)、描述开发和验证数据集、描述预测的统计置信水平以及描述模型将如何随着时间更新和维护。附录B讨论了医疗设备设计中的透明度,并包括有关AI启用医疗设备用户界面的考虑因素。
模型卡
有助于透明度的一种工具被称为“模型卡”。根据FDA的《数字健康和人工智能词汇表》,模型卡是AI模型相关技术特征的结构化报告。附录E提供了示例模型卡模板,附录F提供了包含模型卡的510(k)摘要样本。提供的模板包括设备信息、医疗器械的监管状态、AI模型的描述、性能和局限性、风险管理以及开发,每个类别都有详细的建议。
尽管在此之前没有发布特定于医疗设备的模型卡,但一些行业团体已经发布了更广泛的医疗保健领域AI模型的模型卡模板。例如,杜克大学健康创新研究所的健康AI合作伙伴(HAIP)在《自然数字医学》期刊上发表了一篇文章《向临床终端用户提供机器学习模型信息的模型事实标签》,其中HAIP引入了“营养标签”的概念,包括总结、机制、验证和性能、用途和指导、警告等内容。健康AI联盟(CHAI)发布了应用模型卡模板,包括版本信息、总结、用途和指导、警告、信任成分、关键指标(即有用性、可用性和功效;公平性和公平性;安全性和可靠性)以及资源。
关于模型卡在各种AI用例中的有效性一直存在争议,因此我们建议医疗设备制造商根据其AI模型的具体用途、运行环境和技术细节,适当调整模型卡的使用,而不是将草案指南中的模型卡(或其他已发布的模型卡模板)作为强制性检查表。
虽然该草案指南仍然是草稿,但它为FDA如何看待AI-DSF提供了重要见解,并可以在指南最终确定之前作为上市前提交内容的重要指南。FDA正在接受截至2025年4月7日的草案指南意见,提交至案卷编号FDA-2024-D-4488。此外,FDA已安排于2025年2月18日举行关于草案指南的公共网络研讨会。
(全文结束)

