《自然》杂志最近的一篇文章深入探讨了医疗人工智能(AI)中的偏见问题,概述了四种主要类型的偏见——人为偏见、数据偏见、算法偏见和部署偏见,并提供了在整个AI生命周期中解决这些问题的实用策略。
作者强调了公平、平等和可解释性,提供了一条减少差异并支持临床实践中更道德的AI实施的路线图。
医疗领域AI的崛起及其带来的风险
AI赋能的医疗设备在医疗保健中变得越来越普遍,尤其是在放射学、心脏病学和神经学等专业领域。截至2024年5月,美国食品药品监督管理局(FDA)已批准了882种此类设备,其中76%集中在放射学领域。这些工具擅长分析大型数据集并识别复杂的模式,通常比传统方法更快、更准确地提供结果。
然而,伴随这些优势而来的还有严重的担忧。许多这些AI系统都是“黑箱”操作,意味着它们的决策过程难以解释或审计。这种缺乏透明度限制了临床医生监督或质疑AI输出的能力,引发了关于安全、生物合理性和伦理责任的问题。其中一个最紧迫的问题是偏见——AI在做决策时存在的系统性模式可能导致不平等的结果,尤其是对已经脆弱的人群。
尽管监管机构如FDA和世界卫生组织(WHO)对此给予了越来越多的关注,但仍然缺乏系统性的方法来识别和减轻整个AI生命周期中的偏见。《自然》杂志的文章直接解决了这一空白,提供了对偏见类型、其根本原因以及如何管理以支持更公平、更值得信赖的AI系统的结构化审查。
偏见的类型及其来源
为了更清楚地了解偏见的来源及其在医疗AI中的表现,研究人员分析了1993年至2024年间发表的94项相关研究。这些研究是从PubMed和Google Scholar中找到的233项初始研究中筛选出来的。
他们的审查将偏见分为四类:
- 人为偏见:包括在系统设计或训练期间的隐性、系统性或确认偏见。
- 数据偏见:如选择、表示或测量错误在训练数据集中。
- 算法偏见:包括聚合偏见或特征选择和权重问题。
- 部署偏见:在实际使用中引入的偏见,如自动化偏见或反馈循环。
这些偏见通常源于代表性不足的数据、薄弱的模型设计或对AI建议的过度信任而缺乏适当的人类监督。令人担忧的是,审查发现现有的一半医疗AI模型由于数据不完整或设计缺陷而存在高偏见风险——而只有20%的模型显示出低风险。
关键结论是,如果没有强有力的框架,即使是最先进的AI工具也有可能强化或放大护理中的差异。
生命周期方法缓解偏见
为了解决这个问题,作者建议在AI模型生命周期的每个阶段管理偏见——从概念开始,到数据收集、算法开发、临床部署和上市后监测。
关键策略包括:
- 在设计过程早期涉及多样化的多学科团队。
- 确保数据收集具有代表性和包容性。
- 应用公平意识预处理技术,在模型训练前纠正不平衡。
- 在算法开发过程中使用公平指标并对子组进行测试。
- 在部署后监测概念漂移或反馈偏见等问题,并建立持续评估和调整机制。
论文中引用的一个案例研究表明,一个心脏MRI分割模型通过分层批量采样和受保护群体模型减少了种族偏见——这是这些策略在实践中的应用示例。
尽管如此,作者承认现实中的挑战:资源限制、公平与准确性之间的权衡以及外部验证AI系统的困难。因此,他们呼吁标准化框架和透明的评估流程,使道德AI不仅是一个理想,而是成为标准。
展望未来:建立对AI驱动护理的信任
AI在医疗保健中的整合正在迅速发展——但伦理问题,特别是偏见问题,远未解决。这项研究提供了对偏见如何进入AI系统以及如何通过周到的端到端生命周期管理来解决这些问题的清晰视角。
关键建议包括从一开始就涉及多元观点、使用包容性数据、在开发过程中纳入公平检查,并承诺在部署后进行持续监测。虽然技术和组织障碍依然存在,但作者强调透明度、一致性和问责制对于减少差异和建立信任至关重要。
对于未来,他们建议将AI伦理、多样性和包容性融入监管框架和医学教育中——为更公平、由AI驱动的护理奠定基础。
(全文结束)