医疗健康领域中的AI偏见：细微语言变化如何影响女性和少数族裔患者 - AI与医疗健康

医疗健康领域中的AI偏见：细微语言变化如何影响女性和少数族裔患者AI Bias in Healthcare: How Small Language Shifts Affect Women and Minority Patients

环球医讯 / AI与医疗健康来源：www.digitalinformationworld.com美国 - 英语2025-09-22 18:46:25 - 阅读时长3分钟 - 1071字

麻省理工学院研究揭示，医疗健康领域使用的大型语言模型因患者提问中细微语言变化（如性别标记调整、拼写错误或情绪化表达）产生7-9%的治疗建议偏差，女性和少数族裔患者更易被错误建议减少就医，非二元性别者及英语能力有限人群也面临更高风险，暴露AI系统在真实医疗场景中可能加剧固有健康不平等，强调部署前需强化对书写风格、语气等非临床因素的测试以保障公平性。

医疗研究长期依赖白人男性数据，导致女性和少数族裔患者在过往临床试验中被排除。这一历史缺口如今在人工智能领域显现：基于此类数据训练的模型正被医院和诊所采用，其建议缺陷已清晰可见。

麻省理工学院研究发现

麻省理工学院团队测试了四款大型语言模型，包括GPT-4、Llama 3（两个变体）及Palmyra-Med。研究聚焦于患者提问仅作细微调整（不改变医学事实）时模型的反应，例如调整性别标记、完全移除性别信息、添加拼写错误或多余空格，以及改用焦虑或戏剧化语气表述。

即使临床信息完全相同，治疗建议平均出现7%至9%的偏差，且偏差方向常导致医疗建议弱化。例如，部分本应建议寻求专业帮助的患者，反被指示居家处理症状。

受影响最严重的群体

错误对特定群体影响更显著：在完全相同的病例中，女性患者比男性更常收到减少医疗的建议。某项测试显示，空格错误导致女性失误率比男性高出7%。问题还波及其他群体——非二元性别患者、采用焦虑或情绪化语气者、英语能力有限者及数字素养较低者均遭遇更弱的建议效果。

移除性别标记并未解决问题，模型通过写作风格和语境推断性别及其他特征，导致差异持续存在。

对话准确率下降

研究者还模拟了基于聊天的患者工具场景进行对话测试。引入细微变化后，所有模型的准确率平均下降约7%。此类场景更贴近现实：人们常非正式输入、包含错误或表达情绪。在此类情况下，女性患者再次更频繁地收到避免必要医疗的建议。

其他研究的佐证证据

麻省理工的研究并非孤例。伦敦政治经济学院报告指出，谷歌的Gemma模型持续弱化女性健康需求；去年《柳叶刀》论文发现GPT-4的治疗方案与种族、性别和民族相关联，而非基于临床信息；另有研究显示，寻求心理健康支持的有色人种患者从AI工具获得的回应比白人患者缺乏同理心。

即便专为医疗设计的模型也难逃漏洞。聚焦临床推理的Palmyra-Med呈现同样不一致模式；谷歌的Med-Gemini模型近期因生成虚假解剖结构遭批评，证明错误可能从显性延伸至隐性。显性错误易被察觉，但偏见更隐蔽且可能未被察觉。

医疗部署风险

当科技企业加速向医院推广系统时（谷歌、Meta和OpenAI均视医疗为重大增长领域），证据表明语言模型对非临床细节的敏感性正影响患者护理。书写方式的微小变化即可改变建议，而影响往往落在医疗资源本已匮乏的群体身上。

研究结果警示：在患者护理中部署AI系统前，亟需强化测试环节。测试范围必须超越人口统计学特征，涵盖真实交流中常见的写作风格、语气及错误类型。否则，医院可能引入悄然复制医疗不平等的工具。

【全文结束】

快速导航

国内健康

环球医讯

健康科普

医药资讯

家医百科