实施医学影像AI:需考虑的问题Implementing medical imaging AI: issues to conside | Newswise

环球医讯 / AI与医疗健康来源:www.newswise.com美国 - 英语2024-10-03 21:00:00 - 阅读时长6分钟 - 2571字
研究评估了模型偏见及其广泛部署如何影响AI公平性,使用现有的X射线、皮肤科和眼科图像数据集
医学影像AI美国FDA授权模型透明度公平性人口统计因素启发式捷径模型性能重新训练本地公平
实施医学影像AI:需考虑的问题

先前的研究发现,AI可以从医学影像中确定人口统计特征。截至2024年8月7日,美国食品药品监督管理局(FDA)已授权950种AI/ML驱动的医疗设备;其中超过100种是在今年获得授权的。算法授权的速度正以指数级增长。或许不出所料,大多数已授权的医疗算法都与医学影像有关。医学影像包含大量密集的信息,可以由AI分析以识别有助于疾病诊断和预后的模式。但AI如何做出预测并不总是为人所知,医学影像模型的透明度是一个关键因素。

随着AI在美国各地的临床中心部署,一个重要的考虑因素是确保模型在不同的患者群体和人群中表现公平。为了更好地了解医学影像AI的公平性,麻省理工学院(MIT)和埃默里大学的一组研究人员训练了超过3000个模型,涵盖多种模型配置、算法和临床任务。他们对这些模型的分析强化了一些关于AI算法偏见的先前发现,并揭示了在多样化环境中部署模型的新见解。

以下是他们最近发表在《自然医学》上的研究的主要发现:

AI可以从医学影像中确定人口统计因素,而无需提供这些信息

此前的研究表明,AI可以从胸部X光图像中预测自我报告的种族、性别和年龄。除了强调这些先前的发现外,目前的工作还确认AI可以从眼科图像中预测性别,并说明AI可以从皮肤科图像中预测年龄和性别,这突显了一个可能在多种医学影像模态中普遍存在的问题。

为什么这很重要?如果AI可以预测人口统计因素,它可能会利用这些信息来指导其决策。这被称为“启发式捷径”,即AI利用受保护属性(如种族或保险状况)来推动其预测,而不是识别和依赖医学影像中的病理特征。通过这种方式,模型可能会基于人口统计特征进行预测,而没有任何临床依据,从而导致在某些人群中的性能下降,可能加剧现有的医疗系统不平等现象。

模型表现良好并不意味着模型公平

模型性能告诉我们模型平均而言能多准确地预测某种状况或结果。模型公平性描述了模型在不同患者亚组中的表现情况。

例如,一个模型可能在平均情况下非常擅长从胸部X光图像中预测死亡率。但当该模型应用于年轻患者时,其预测死亡率的准确性可能低于应用于老年患者时。“模型性能并不能自动转化为模型公平性,”该研究作者、埃默里大学医学院放射学和影像科学系副教授朱迪·吉乔亚博士解释道,“虽然高模型性能是算法授权的必要条件,但公平性并不总是明确评估。”

如果模型善于预测人口统计因素,则其公平性较差

尽管之前已知AI可以预测人口统计因素,启发式捷径可能导致有偏见的模型,但研究人员希望更仔细地研究这些关系。他们进行了分析,以量化模型在未提供人口统计信息的情况下预测某个属性的能力,称为编码程度。然后,他们在不同患者亚组中评估了模型的性能。

他们的发现如下:人口统计因素的编码越强,模型在该因素方面的公平性就越差。例如,当研究人员分析了一部分放射学数据时,他们发现模型可以正确预测患者的年龄大约75%的时间,这意味着年龄被强烈编码。更重要的是,这些模型在不同年龄组之间的表现并不相同——实际上,它们在老年(80-100岁)和年轻(18-40岁)患者之间的公平性差距为30%,即模型在这两个不同年龄组之间的性能下降了30%。

研究人员分析了放射学模型中年龄、种族、性别以及种族和性别的交集的编码程度,发现模型可以从胸部X光图像中以不同程度的确定性预测这些属性。他们还分析了皮肤科和眼科模型中年龄和性别的编码程度,再次发现模型可以从医学影像中预测这些人口统计特征。

专注于放射学模型,这些模型拥有最多可用数据,研究人员观察到同样的趋势——模型在预测人口统计因素方面越好,其在该人口统计特征范围内的患者(年轻与老年、黑人与白人、女性与男性等)之间的公平性就越差。“我们的发现非常一致:属性编码越强,公平性差距就越大,”该研究第一作者、麻省理工学院博士生杨玉哲博士说,“这种相关性在我们评估的每个模型中都成立,进一步证明了依赖启发式捷径进行预测的AI模型具有更大的公平性差异。”

可以重新训练模型以提高公平性——在一定程度上

为了提高模型的公平性,研究人员应用了几种不同的方法来平衡数据集(使数据更反映患者群体)并去除人口统计信息(从而打破启发式捷径)。他们发现,这些技术可以在不显著牺牲模型性能的情况下提高模型的公平性。

然而,研究人员发现,仅优化公平性有时会影响其他模型指标,如模型精度或校准,强调了在模型公平性与其他因素之间取得平衡的必要性。“模型性能和模型公平性之间总是存在张力,”吉乔亚解释道,“盲目优化公平性最终可能会削弱模型的实用性,使其在进行预测时变得不可靠。”

在一个地点训练的公平模型在其他地方部署时可能不公平

研究人员发现,他们的方法在优化公平性方面是有效的——如果模型使用来自同一来源的数据进行评估。这种现象称为“本地公平”。当研究人员将这些本地最优模型部署到来自不同来源的数据集上时,它们仍然具有高表现。然而,这些模型不一定公平。这表明,随着数据分布的变化,可能会潜在地影响模型的公平性。“我们的研究发现,本地公平在模型部署到不同环境时不一定能够维持,”杨玉哲说,“这表明在一个医院系统中开发和优化的公平模型,在另一个医院系统或地区部署时可能不公平。我们的结果强调,模型应定期更新和测试,以确保随着时间的推移保持公平性,因为数据分布和现实世界情境可能会发生变化。”

欲了解更多关于NIH如何处理伦理AI开发的信息,请查看数据科学战略办公室最近举办的研讨会。

吉乔亚曾是国家生物医学成像和生物工程研究所(NIBIB)数据和技术进步(DATA)国家服务学者。她现在通过医学影像和数据资源中心(MIDRC)获得资金支持,该研究通过合同75N92020C00008和75N92020C00021资助。通过其偏见工作组,MIDRC正在评估医学影像模型在整个开发过程中的偏见,并创建了各种工具包,以帮助开发者减轻模型中的偏见。国家心肺血液研究所(NHLBI)也支持了这项研究(R01HL167811)。

研究参考:Yang, Y., Zhang, H., Gichoya, J.W. et al. The limits of fair medical imaging AI in real-world generalization. Nat Med (2024).


(全文结束)

大健康

猜你喜欢

  • Proscia 推出 Concentriq Embeddings 和开发者工具包以推动病理学 AI 发展Proscia 推出 Concentriq Embeddings 和开发者工具包以推动病理学 AI 发展
  • 美国卫生监管机构关注医疗保健中的人工智能美国卫生监管机构关注医疗保健中的人工智能
  • 2025 年值得规划参加的顶级医疗保健会议2025 年值得规划参加的顶级医疗保健会议
  • 理解人工智能伦理及其对企业的重要性理解人工智能伦理及其对企业的重要性
  • AI助力解决医生职业倦怠中的性别差距AI助力解决医生职业倦怠中的性别差距
  • HPC-AI 科技公司获 5000 万美元 A 轮融资以强化视频生成 AI 和 GPU 平台HPC-AI 科技公司获 5000 万美元 A 轮融资以强化视频生成 AI 和 GPU 平台
  • 如何通过AI和大型语言模型革新罕见病诊断如何通过AI和大型语言模型革新罕见病诊断
  • AI模型识别现有药物用于罕见疾病治疗AI模型识别现有药物用于罕见疾病治疗
  • AI模型深入解析手部运动,为神经假肢的发展迈出关键一步AI模型深入解析手部运动,为神经假肢的发展迈出关键一步
  • 生物制药与医疗器械简报:医疗保健中的大型语言模型;药品中的亚硝胺;PFAS;以及CDER的定量医学卓越中心生物制药与医疗器械简报:医疗保健中的大型语言模型;药品中的亚硝胺;PFAS;以及CDER的定量医学卓越中心
大健康
大健康

热点资讯

大健康

全站热点

大健康

全站热文

大健康