医疗中的AI是否公平？研究人员对生成式人工智能模型进行压力测试并呼吁保障措施 - AI与医疗健康

医疗中的AI是否公平？研究人员对生成式人工智能模型进行压力测试并呼吁保障措施Is AI in medicine playing fair? | ScienceDaily

环球医讯 / AI与医疗健康来源：www.sciencedaily.com美国 - 英文2025-11-01 06:17:32 - 阅读时长3分钟 - 1419字

西奈山医学院研究人员对九种大型语言模型进行大规模压力测试，发现所有生成式人工智能模型均会基于患者的社会经济和人口统计背景差异推荐不同治疗方案，即便临床细节完全相同；研究显示高收入患者更易被建议进行CT或MRI等高级检查，而低收入患者常被建议无需进一步检查，且部分模型在心理健康评估中存在非必要升级倾向；该成果发表于《自然医学》期刊，强调需建立早期检测机制和严格验证流程，通过优化模型训练、提示设计及监督体系确保AI医疗服务的公平性与安全性，为制定全球AI医疗保障最佳实践提供科学框架，避免算法偏见加剧医疗资源分配不公。

随着人工智能（AI）快速融入医疗保健领域，西奈山医学院伊坎医学院研究人员的一项新研究揭示：所有生成式AI模型可能仅基于患者的社会经济和人口统计背景，对相同医疗状况推荐不同治疗方案。

研究结果详细刊登在2025年4月7日《自然医学》在线期刊，强调早期检测与干预对确保AI驱动医疗服务安全、有效且普适的重要性。研究团队对九种大型语言模型（LLMs）进行了压力测试，使用1000例急诊科病例，每例复制32种不同患者背景，生成超过170万条AI医疗建议。尽管临床细节完全一致，AI模型仍会依据患者的社会经济和人口统计特征调整决策，影响分诊优先级、诊断测试、治疗方案及心理健康评估等关键领域。

西奈山医学院人工智能与人类健康温德赖希部门生成式AI主任、联合资深作者伊亚尔·克兰格医学博士表示："本研究为AI保障提供了框架，帮助开发者和医疗机构设计公平可靠的AI工具。通过识别AI何时因背景因素而非医疗需求改变建议，我们可优化模型训练、提示设计和监督机制。我们严格的验证流程将AI输出与临床标准比对，并结合专家反馈提升性能。这种主动举措不仅增强对AI医疗服务的信任，更有助于制定惠及全民的医疗政策。"

研究最引人注目的发现之一是部分AI模型倾向于基于人口统计特征（而非医疗必要性）升级护理建议，尤其在心理健康评估方面。此外，高收入患者更常被推荐CT扫描或MRI等高级诊断测试，而低收入患者则更频繁地被建议无需进一步检查。研究人员指出，此类不一致的规模凸显了加强监督的迫切需求。

尽管研究提供了关键洞见，研究者谨慎表示这仅是AI行为的快照。未来研究将持续纳入保障测试，评估AI模型在真实临床环境中的表现，以及不同提示技术能否减少偏见。团队还计划与其他医疗机构合作优化AI工具，确保其符合最高伦理标准并公平对待所有患者。

本研究第一作者、医师科学家马哈茂德·奥马尔医学博士表示："我很荣幸与西奈山合作开展这项关键研究，以确保AI驱动医学惠及全球患者。随着AI更深入整合至临床护理，彻底评估其安全性、可靠性和公平性至关重要。通过识别模型可能引入偏见的环节，我们能改进设计、强化监督，构建以患者为核心的医疗系统。此次合作是建立全球AI医疗保障最佳实践的重要一步。"

西奈山医学院人工智能与人类健康温德赖希部门主席、哈索·普拉特纳数字健康研究所主任吉里什·N·纳德卡尼医学博士兼公共卫生硕士补充道："AI有潜力革新医疗保健，但前提是负责任地开发和使用。通过合作与严格验证，我们正优化AI工具以坚守最高伦理标准，确保适当的以患者为中心的护理。实施强有力的保障协议，不仅推进技术发展，更建立变革性医疗所需的信任基础。通过适当测试和保障措施，我们可确保这些技术惠及所有人而非特定群体。"

接下来，研究团队计划通过模拟多步骤临床对话并在医院环境中试点AI模型来扩展工作，以测量其实际影响。他们希望研究结果能指导医疗AI保障政策与最佳实践的制定，增强对这些强大新工具的信任。

该论文题为《大型语言模型医疗决策中的社会人口统计偏见：大规模多模型分析》。研究作者包括马哈茂德·奥马尔、谢莉·索弗、里姆·阿格巴里亚、尼古拉·路易吉·布拉加齐、唐纳德·U·阿帕卡马、卡罗尔·R·霍罗维茨、亚历山大·W·查尼、罗伯特·弗里曼、本杰明·库默、本杰明·S·格里克斯伯格、吉里什·N·纳德卡尼和伊亚尔·克兰格。

【全文结束】