在新型软件产品不断发展的背景下,这些产品为医疗保健领域带来了新的机遇,但美国食品药品监督管理局(FDA)尚未批准任何采用连续学习技术生成音频和视频内容的人工智能(AI)医疗设备上市,这种技术称为生成式人工智能(GenAI)。然而,技术行业不会停滞不前,制造商们热切希望找到方法,将连续学习算法引入美国的医疗设备市场。鉴于GenAI同时存在显著的风险和潜力,FDA于2024年11月20日至21日召开了其数字健康咨询委员会(DHAC)的首次会议,讨论了GenAI设备的全生命周期(TPLC)考虑因素。此次会议按照TPLC方法,分为三个部分,分别讨论了市场前考虑因素、风险管理以及市场后考虑因素。
在开幕致辞中,FDA局长罗伯特·卡利夫博士(Dr. Robert Califf)强调了需要解决“基于种族、族裔、教育和地理的差异”,这些差异导致美国在健康结果方面落后于其他国家。他指出,只要负责任地开发和维护,AI有可能彻底改变医疗保健的提供、访问和质量。FDA器械与放射卫生中心(CDRH)主任米歇尔·塔弗博士(Dr. Michelle Tarver)也表达了类似的观点,认为美国存在巨大的未满足临床需求和健康不平等,而这些可以通过GenAI的帮助得到缓解。
特有挑战
GenAI技术的独特特性给现有监管框架的应用和适用性带来了不确定性,这些框架旨在为产品开发、市场进入和市场后监测提供监督和必要的保护措施。委员会和演讲者在整个讨论中提到了这些特性,以下是几个亮点:
- 输出不确定性:大型语言模型和其他GenAI技术的开放性特征产生了广泛的设备输出可能性。例如,基础模型通常跨多种任务运行,而不针对特定用途进行定制,这使得难以获得关于属性/架构和训练方法的详细信息。
- 应用范围:适当界定GenAI的具体用途或适应症将是市场前性能评估的关键,特别是在当前FDA政策/指南将某些用途认定为低风险的情况下。
- 风险管理:与任何新技术一样,实施GenAI功能需要仔细权衡利弊。行业应在每个GenAI启用产品的整个生命周期内实施有效的风险管理策略,包括:
- 保持控制机制:即使使用第三方基础模型,也要确保符合安全标准。
- 持续市场后监测:有效评估实际性能。
- 建立反馈机制:用户可以报告问题,帮助早期识别潜在风险。
- 证据生成:鉴于GenAI应用中常见的开放式输入/输出格式及其独特风险,传统评估安全性和有效性的方法可能需要调整。例如:
- AI模型生成的错误输出(幻觉)会复杂化对设备行为和可靠性的理解。
- 输出的内在变异性引发了关于一致性能指标随时间变化的问题,以及如何校准市场前性能评估以适应不断演变的算法。
- 由于GenAI生成类人内容,存在将输出误解为人类判断的风险。这需要明确沟通设备限制和正确使用方法。
- 恶意提示可能导致意外的模型输出(越狱)。
- 利益相关者的偏见影响解释,医生可能会过度依赖AI生成的结果,削弱他们的专业判断。
讨论的关键问题
DHAC委员会讨论的大部分内容集中在以下几个关键问题上,总结如下:
- 市场前性能评估:为了评估GenAI启用设备的安全性和有效性,FDA应获得哪些具体信息——并包含在市场前提交中——考虑到这些设备所依赖的基础模型将随着时间变化,且关于基础训练数据的信息有限?需要向医疗保健专业人员、患者和护理人员传达哪些具体信息,以提高透明度和/或控制与GenAI相关的独特风险?
- 风险管理:GenAI为医疗设备带来了哪些新的预期用途或现有用途的新应用,以及需要哪些新的控制措施来减轻相关风险?
- 市场后性能监测:对于GenAI设备而言,哪些方面的市场后监测和评估将至关重要(与其他AI启用设备相比)?
市场前性能评估
委员会强调了市场前提交中评估GenAI启用设备所需的关键方面。明确具体的使用指示、目标人群和使用环境将对产品开发和市场前性能评估准备至关重要。这一开发过程应包括对拟议用途的局限性进行仔细考虑,包括明确报告可能引入不确定性的案例、提供目标人群的人口统计信息以及指定设备的使用地点(例如,分散的医疗保健环境)。FDA还希望了解GenAI是动态(自适应)还是静态的,算法是自主运行还是需要人工干预(人在环中vs.人在环外),以及设备的建模和训练细节。GenAI设备的性能审查将特别关注以下要求:
- 与非生成系统相比,理解可用性风险;
- 表征设备在不同人群/环境中的性能,以符合预期用途;
- 评估与敏感性/特异性相关的指标以及可重复性、再现性、不确定性估计、幻觉率、错误率;
- 建立性能指标以监测数据漂移的风险,承认这可能会影响设备的安全性/性能随时间的变化。
委员会讨论了应对这些要求的潜在评估策略,包括使用标准化数据集进行性能数据基准测试、专家评估临床相关性以及使用其他模型进行基于模型的评估,以在人类监督下评估目标GenAI设备。数据表也被探索为一种可能的工具,用于向机构标准化呈现的信息。许多讨论还集中在从预期用户的角度评估性能——例如,如何使用户做出更好的临床决策以及如何减轻与用户界面相关的风险。
尽管GenAI带来了一系列独特的风险,但委员会讨论中出现的一些主题反映了机构对更广泛AI/ML技术监管方法的思考。与对TPLC的一般强调一致,委员会建议市场后计划应纳入市场前讨论。此外,重点在于患者伤害风险如何强调治理需求,委员会强调了制造商、医生和部署GenAI启用设备的卫生系统之间的共同责任。
风险管理
如前所述,GenAI带来了新的机会,如增强诊断能力,但也引入了需要新类型监测的独特风险。例如,委员会讨论了创建初始草稿后纠正AI生成内容的需求,特别是对于文本草稿或图像解释,这需要开发新的控制机制。审计也将是风险管理的关键方面,公司应考虑其他跟踪和监测的目标。
市场后性能监测
讨论集中在可以实施哪些具体策略和工具,以监测和管理多个站点上的GenAI启用设备的性能和准确性,确保一致性,同时解决数据变异中的区域偏差与授权设备相比。讨论的具体策略包括:
- 评估当地机构的错误解释百分比。
- 使用合成数据或锁定数据集的质量审查进行审计。
- 跟踪查询或标记输出的数量,并在本地评估中识别这些区域。
- 对本地数据集进行评估,以与训练数据集进行比较,评估相似性。
- 将医生判断和患者结果的变异性作为额外的监测方面。
此外,委员会讨论了市场后性能监测中应包括的具体功能,主要分为以下三类,总结如下:
- 人机交互:
- 在市场后期间必须有重要的人类监督。
- 所有输出都应实施水印,以表明涉及GenAI,确保透明度。
- 应利用现有的数据标准,并与消费者技术协会(CTA)等合作,为GenAI启用设备扩展这些标准。
- 希望有一个低成本的监测机制,如注册或报告系统。
- 促进向制造商和最终用户(医生和患者)报告错误是必不可少的,理想情况下通过一个低成本、低努力的中央数据库。
- 有人建议现代化制造商和用户设施设备经验(MAUDE)数据库,以便行业透明地了解GenAI的发展和风险。
- 可用性和风险缓解:
- 不良事件报告应重点关注准确性(是否提供了预期输出?)、安全性(是否有人受伤?)和限定使用(答案是否显著偏离意图?)。
- 用户错误报告的可能性直接关系到可用性和安全性的考虑。
- 内部定期审查互动(例如,聊天记录)应记录产品或实施失败。
- 关于数据漂移的术语教育对于有效的风险报告是必要的。
- 如果使用的基线模型发生重大变化,重新提交信息给FDA是必需的。
- 基线功能变更报告——PCCPs可以实现“预批准”变更,并应包括(1)描述计划修改,说明这些更改是手动还是自动,以及它们是全球实施还是本地实施;(2)修改协议,详细说明如何验证/验证、分析、实施并在现实世界中监测提议的更改,强调用户将如何被告知更新的透明度;(3)影响评估,评估利益与风险的平衡,确保在实施提议的修改之前已识别并充分缓解风险。
委员会讨论了一些利用PCCPs进行适应性(GenAI启用)算法的考虑。在PCCPs中建立边界或护栏以定义允许的自动更新范围是一个关注点。还指出,随时间监测市场后性能必须确保设备效果的维持或改进,同时适应多个站点的本地调整。此外,小组成员表示,当发生修改时更新标签是至关重要的,以便用户及时了解设备功能。委员会会议结束后不久,FDA发布了其关于AI启用设备软件功能的PCCP最终指导;请参阅我们对这一指导的讨论。
结论
DHAC的讨论突显了将GenAI整合到医疗保健中的机遇和挑战。虽然这些技术具有变革潜力——增强诊断和治疗选择——但相关风险需要行业和监管机构的仔细考虑,仍有许多问题需要回答。持续对话将有助于塑造有效的监管策略,促进创新,同时确保公众对医疗保健环境中新兴技术的信任。
(全文结束)

