最新研究发现,医疗领域使用的AI系统会根据输入信息中的拼写错误、俚语表达和性别特征改变医疗建议,这一发现引发了对算法公平性的严重担忧。
研究显示,患者信息中细微的修改(如输入错误、空格变化或语气改变)会导致AI治疗建议产生显著偏差。例如当患者使用"我觉得可能有偏头痛"等不确定表述时,AI建议自我护理的概率比专业医疗建议高出7-9%,即使症状需要进一步检查也是如此。
这项在ACM 2025公平性、问责与透明度大会上发布的研究报告揭示:通过模拟数千条不同表达风格的患者信息(包括英语非母语者、打字能力弱者及情绪化表达),研究人员发现性别中立代词和特殊书写风格都会影响AI诊断。当引入非临床语言线索时,女性患者接受错误自我护理建议的概率比男性高出7%。
测试还显示,在模拟真实问诊对话场景中,AI诊断准确率在引入轻微文本修改后下降超过7%。加州大学圣地亚哥分校的Karandeep Singh教授指出:"这种隐性偏见可能改变AI建议的内容和基调,导致微妙却重要的医疗差异。"主要研究者Abinitha Gourabathina强调:"AI模型不仅处理医学事实,其判断受信息呈现方式影响,这可能在部署前未被纠正的医疗差异加剧。"
研究团队测试了包括OpenAI的GPT-4、Meta的Llama-3和Writer医疗专用模型在内的多款主流AI系统,均发现类似缺陷。尽管相关公司声明其模型不应脱离人工监督用于临床决策,但随着生成式AI在电子病历和患者服务中的普及,专家呼吁亟需建立更完善的评估系统。
为防止潜在危害,研究团队已公开其偏见评估框架,并敦促对AI医疗工具进行更严格的测试,确保患者无论采用何种表达方式都能获得公平准确的医疗服务。
【全文结束】

