Ghassemi的研究:打造值得信赖的诊断工具
位于剑桥市的Marzyeh Ghassemi是医疗AI领域偏见与可信度研究的领军人物。Jonathan Wiggs/Globe Staff报道显示,她的最新研究揭示:医疗记录中的一个拼写错误或非常用词汇,可能导致AI系统误判危重患者"无异常"。
随着全球医院广泛采用类似ChatGPT的AI诊疗系统,这种风险愈发显著。尽管AI在早期发现人类医生可能忽视的健康问题方面表现出色,但Ghassemi团队的研究证明这些系统极易受数据微小扰动影响,可能造成严重医疗事故。
在麻省理工学院和贾米尔诊所的工作中,Ghassemi持续揭示医疗AI的缺陷:
- 加拿大训练的AI胸片诊断系统在加州使用时准确率显著下降
- 心理健康AI对黑人、亚裔用户回应的共情程度低于白人用户
- 部分AI系统存在对女性患者提供错误医疗建议的倾向
"我并非反科技者,"这位伊朗移民后代坦言,"但无视人类数据固有缺陷的AI部署必然导致伤害。"
研究团队通过实证方法验证风险:收集数百份医疗记录后,模拟非英语母语者或教育水平较低者的沟通特征——添加拼写错误、多余空格、不规范表述,甚至患者焦虑时的激烈措辞如"我以为自己要死了"。
测试结果显示,四个AI系统对这类记录的处理存在显著偏差:误判无需治疗的概率比人类医生高出7-9个百分点。更严重的是,即便移除性别标识信息,系统仍能通过细微线索识别女性患者,导致女性获得"无需就诊"建议的概率更高。
慕尼黑工业大学医学信息学研究所的Paul Hager评论称,Ghassemi的研究印证了AI系统易受干扰的特性:"即便输入真实相关信息,模型准确性也可能下降。虽然先进推理模型在改善这一问题,但基础性解决方案的研究仍显不足。"
关于AI识别性别机制,Ghassemi推测这源于医疗记录中的细微语言特征:"系统可能捕捉到问诊用语和措辞选择中的性别线索,这种能力令人惊叹却也可怕。"
该研究团队已提出解决方案框架:
- 采用包含种族、性别、经济状况等多维度特征的多样化训练数据集
- 建立系统定期审计机制,确保持续公平性
- 立法规定将医疗公平性纳入AI强制性能标准
Ghassemi特别指出,医疗AI的兴起为根除医疗体系中的系统性偏见提供了契机:"长期以来医疗体系对女性和少数族裔造成的伤害未获足够重视,或许AI暴露的问题能成为推动整体改革的契机。"
【全文结束】