"这有点令人害怕"
一个拼写错误、格式错误或俚语都可能让AI更倾向于告诉病人他们没生病或不需要就医。
这是麻省理工学院研究人员在一项6月研究中发现的结果,该研究目前仍在同行评审阶段,我们此前已做过相关报道。他们发现,即便出现色彩性或情感化的语言,也足以干扰AI的医疗建议。
在《波士顿环球报》的最新采访中,该研究的合著者Marzyeh Ghassemi警告了这种技术被广泛使用可能造成的严重危害。Ghassemi是麻省理工学院电气工程与计算机科学教授,她向该报表示:"我热爱开发AI系统。但很明显,那些未能认识到人类数据所携带固有问题的天真部署,将导致伤害。"
这种技术可能导致对无法清晰使用英语表达的患者、母语为英语但语言能力不足者,以及在描述健康状况时带有情感色彩的群体产生歧视。例如,医生使用AI工具处理患者通过电子邮件发送的就诊主诉时,若沟通内容并非完美无缺,AI给出错误建议的风险将显著增加。
研究团队从真实医疗记录和Reddit用户的健康咨询中收集了患者主诉数据。随后他们对这些文本进行了"污染"处理——在不改变实质内容的前提下——引入拼写错误、词语间多余的空格以及非标准语法,比如全部使用小写字母。同时加入了患者常用的非确定性语言(如"有点"和"可能")以及带有情绪色彩的表达(如"我以为我要死了")。
研究人员将这些案例输入包括OpenAI GPT-4在内的四个不同AI模型进行诊断判断(虽然这些模型当时并不算最先进的技术),要求模型判断患者是否需要就诊、进行实验室检查或无需就诊。结果显示:当处理使用不完美但更真实的语言表达时,AI工具错误建议患者无需就医的可能性增加了7%至9%。
"增加额外信息,即使这些信息真实且相关,通常也会降低模型的准确性。"未参与此项研究的慕尼黑工业大学研究员Paul Hager告诉《环球报》。"这是一个复杂的问题,虽然更先进的推理模型在某种程度上正在解决这个问题,但如何从基础层面解决这个问题的研究仍然很少。"
这些AI工具的准确性不足并不令人意外。自AI行业诞生以来,"幻觉"现象(即聊天机器人生成错误信息)一直困扰着该领域,且可能正在恶化。但最令人担忧的是,测试中的AI工具表现出明显的性别偏见:它们对女性患者的误判尤为突出。
"当模型认为患者是女性时,医疗建议的减少更为明显。"Ghassemi告诉《环球报》。
女性患者的健康诉求长期被以男性为主的医疗系统轻描淡写,常被视为"过于情绪化"——这让人想起并不久远的过去医学界将女性疾病归咎于"女性专属癔症"的历史。Ghassemi发现,即便在去除所有性别指代信息后,AI仍能准确判断患者性别。
"这真的令人惊叹,"她在接受采访时说。"但也有点令人害怕。"
Ghassemi团队的研究结果与另一项发表在《柳叶刀胃肠病学与肝脏病学》杂志的近期研究相呼应。后者发现,当医生对AI工具有依赖后,在AI被撤除时他们识别癌前病变的能力显著下降。换句话说,AI似乎削弱了医生的专业能力,这种现象被称为"去技能化"。
"如果我失去了这些技能,我该如何发现错误?"伦敦大学学院医院的胃肠病学家Omer Ahmad在最近接受《纽约时报》采访时表示。"我们给予AI的输入影响它的输出,但它似乎也在影响我们的行为。"
回到Ghassemi的研究,如果医生开始依赖AI工具来解析患者的主诉,他们将面临失去医疗工作中最基本的人类技能之一:与依赖他们健康的患者沟通交流的能力。
这对直接向聊天机器人寻求医疗建议的人群也有重大影响。我们难以想象有多少用户因为输入时的错别字而被ChatGPT误导不去就医。
"我们需要建立法规,将公平性作为临床AI的强制性性能标准,"她告诉该报。"你必须使用多样化且具有代表性的数据集进行训练。"
【全文结束】