医生使用的人工智能工具可能导致女性和少数族裔健康状况恶化,越来越多的研究表明,许多大型语言模型(LLMs)会轻描淡写这些患者的症状。
近期一系列研究发现,医疗行业广泛采用AI模型可能引发带有偏见的医疗决策,强化西方社会中已存在的对不同群体治疗不足的模式。美国和英国顶尖大学研究人员的发现表明,由大型语言模型驱动的医疗AI工具往往不能准确反映女性患者的症状严重程度,同时对黑人和亚裔患者表现出较低的“同理心”。
这些警告正值微软、亚马逊、OpenAI和谷歌等全球顶级AI企业竞相开发旨在减轻医生工作负担、加速治疗的产品,以帮助全球超负荷运转的医疗系统。目前全球许多医院和医生正使用Gemini和ChatGPT等大型语言模型,以及Nabla和Heidi等初创公司开发的AI医疗记录应用,自动生成功能患者就诊转录文本、突出医学相关细节并创建临床摘要。
今年6月,微软宣布开发出一款AI驱动的医疗工具,声称其诊断复杂疾病的准确率是人类医生的四倍。但麻省理工学院贾米尔诊所6月的研究发现,OpenAI的GPT-4、Meta的Llama 3以及专注于医疗的大型语言模型Palmyra-Med等AI模型,对女性患者的护理建议级别显著降低,并建议部分患者居家自疗而非寻求专业帮助。麻省理工团队的另一项研究表明,OpenAI的GPT-4等模型对寻求心理健康支持的黑人和亚裔人群的回答缺乏同情心,麻省理工学院贾米尔诊所副教授马齐耶·加斯米表示,这意味着“某些患者仅因其被模型感知的种族差异,可能获得支持性更弱的指导”。
同样,伦敦政治经济学院的研究发现,英国超过半数的地方政府用于支持社工的谷歌Gemma模型,在生成和总结案例记录时,与男性相比会轻描淡写女性的身心健康问题。加斯米教授的麻省理工团队还发现,在医疗场景中使用的AI模型对包含拼写错误、非正式语言或不确定表述的患者信息,建议其避免就医的可能性比格式完美但临床内容相同的沟通高出7%至9%。这可能导致非英语母语者或不熟悉技术的人群受到不公平对待。
此类有害偏见部分源于训练大型语言模型的数据。GPT-4、Llama和Gemini等通用模型使用互联网数据进行训练,因此这些来源的偏见会反映在模型输出中。AI开发者也可能通过模型训练后的安全机制影响偏见渗透程度。旧金山加利福尼亚大学兼职教授、AI医疗信息初创公司Open Evidence首席医疗官特拉维斯·扎克指出:“如果你的健康决策可能受Reddit子论坛影响,我认为这绝非安全场景。”扎克教授团队去年的研究发现,GPT-4未考虑医疗状况的人口多样性,倾向于对特定种族、民族和性别进行刻板化归类。
研究人员警告,AI工具可能强化医疗行业已有的治疗不足模式,因为健康研究数据往往严重偏向男性,例如女性健康问题长期面临资金不足和研究匮乏。OpenAI表示许多研究评估的是GPT-4旧版本,公司自发布以来已提升准确性,并组建团队专项减少有害或误导性输出,尤其关注健康领域;公司还与外部临床医生和研究人员合作评估模型、进行压力测试以识别风险。该集团与医师共同开发了医疗领域LLM能力评估基准,该基准考量用户查询的不同风格、相关度和细节层次。
谷歌表示对模型偏见“极为重视”,正在开发隐私技术以净化敏感数据集并建立防范偏见和歧视的安全机制。研究人员建议减少医疗AI偏见的方法之一是明确哪些数据集不应用于训练,转而采用多样化且更具代表性的医疗数据集进行训练。扎克教授提到,其团队开发的Open Evidence系统已被美国40万名医生用于总结患者病史和检索信息,该模型基于医学期刊、美国食品药品监督管理局标签、健康指南和专家评审进行训练,且所有AI输出均附有来源引用。
今年早些时候,伦敦大学学院和国王学院的研究人员与英国国家医疗服务体系(NHS)合作开发了名为Foresight的生成式AI模型。该模型基于5700万人的匿名患者数据训练,涵盖住院和新冠疫苗接种等医疗事件,旨在预测住院或心脏病发作等健康结果。伦敦大学学院荣誉高级研究员、Foresight项目首席研究员克里斯·汤姆林森表示:“使用国家级规模数据使我们能全面呈现英格兰在人口统计和疾病方面的万花筒状态”,他认为这比通用数据集更具优势。欧洲科学家还基于英国生物银行40万名参与者的匿名医疗记录,训练出可预测数十年后疾病易感性的Delphi-2M模型。
然而,如此大规模的真实患者数据常引发隐私问题。今年6月,英国医学协会和全科医生皇家学院就NHS Foresight项目在模型训练中使用敏感健康数据提出数据保护投诉,导致该项目暂停,等待英国信息专员办公室审议。此外,专家警告AI系统常“产生幻觉”(即编造答案),这在医疗环境中可能造成严重危害。
但麻省理工学院的加斯米教授强调AI正为医疗带来巨大裨益:“我希望我们能重新聚焦健康领域模型,着力解决关键医疗缺口,而非仅在医生本已擅长的任务上提升百分之一的性能。”
【全文结束】