国内健康环球医讯家医百科药品库医药资讯

医疗记录中的单个错别字可能导致AI医生给出危险建议

A Single Typo in Your Medical Records Can Make Your AI Doctor Go Dangerously Haywire

美国英语人工智能与健康
新闻源:futurism.com
2025-09-04 20:11:46阅读时长4分钟1561字
AI医生医疗建议健康状况患者语言表达准确性性别偏见去技能化医疗法规数据集训练

内容摘要

麻省理工学院的研究发现,医疗记录中的拼写错误或非标准表达会使AI医疗建议准确率下降7%-9%,导致女性患者更容易被误判无需就医。研究揭示了医疗AI对情绪化表述的误判风险,并警示医生过度依赖AI可能导致诊断能力退化,该技术可能加剧医疗系统固有的性别偏见,亟需建立基于公平性的AI医疗技术监管标准。

"这有点令人害怕"

一个拼写错误、格式错误或俚语都可能让AI更倾向于告诉病人他们没生病或不需要就医。

这是麻省理工学院研究人员在一项6月研究中发现的结果,该研究目前仍在同行评审阶段,我们此前已做过相关报道。他们发现,即便出现色彩性或情感化的语言,也足以干扰AI的医疗建议。

在《波士顿环球报》的最新采访中,该研究的合著者Marzyeh Ghassemi警告了这种技术被广泛使用可能造成的严重危害。Ghassemi是麻省理工学院电气工程与计算机科学教授,她向该报表示:"我热爱开发AI系统。但很明显,那些未能认识到人类数据所携带固有问题的天真部署,将导致伤害。"

这种技术可能导致对无法清晰使用英语表达的患者、母语为英语但语言能力不足者,以及在描述健康状况时带有情感色彩的群体产生歧视。例如,医生使用AI工具处理患者通过电子邮件发送的就诊主诉时,若沟通内容并非完美无缺,AI给出错误建议的风险将显著增加。

研究团队从真实医疗记录和Reddit用户的健康咨询中收集了患者主诉数据。随后他们对这些文本进行了"污染"处理——在不改变实质内容的前提下——引入拼写错误、词语间多余的空格以及非标准语法,比如全部使用小写字母。同时加入了患者常用的非确定性语言(如"有点"和"可能")以及带有情绪色彩的表达(如"我以为我要死了")。

研究人员将这些案例输入包括OpenAI GPT-4在内的四个不同AI模型进行诊断判断(虽然这些模型当时并不算最先进的技术),要求模型判断患者是否需要就诊、进行实验室检查或无需就诊。结果显示:当处理使用不完美但更真实的语言表达时,AI工具错误建议患者无需就医的可能性增加了7%至9%。

"增加额外信息,即使这些信息真实且相关,通常也会降低模型的准确性。"未参与此项研究的慕尼黑工业大学研究员Paul Hager告诉《环球报》。"这是一个复杂的问题,虽然更先进的推理模型在某种程度上正在解决这个问题,但如何从基础层面解决这个问题的研究仍然很少。"

这些AI工具的准确性不足并不令人意外。自AI行业诞生以来,"幻觉"现象(即聊天机器人生成错误信息)一直困扰着该领域,且可能正在恶化。但最令人担忧的是,测试中的AI工具表现出明显的性别偏见:它们对女性患者的误判尤为突出。

"当模型认为患者是女性时,医疗建议的减少更为明显。"Ghassemi告诉《环球报》。

女性患者的健康诉求长期被以男性为主的医疗系统轻描淡写,常被视为"过于情绪化"——这让人想起并不久远的过去医学界将女性疾病归咎于"女性专属癔症"的历史。Ghassemi发现,即便在去除所有性别指代信息后,AI仍能准确判断患者性别。

"这真的令人惊叹,"她在接受采访时说。"但也有点令人害怕。"

Ghassemi团队的研究结果与另一项发表在《柳叶刀胃肠病学与肝脏病学》杂志的近期研究相呼应。后者发现,当医生对AI工具有依赖后,在AI被撤除时他们识别癌前病变的能力显著下降。换句话说,AI似乎削弱了医生的专业能力,这种现象被称为"去技能化"。

"如果我失去了这些技能,我该如何发现错误?"伦敦大学学院医院的胃肠病学家Omer Ahmad在最近接受《纽约时报》采访时表示。"我们给予AI的输入影响它的输出,但它似乎也在影响我们的行为。"

回到Ghassemi的研究,如果医生开始依赖AI工具来解析患者的主诉,他们将面临失去医疗工作中最基本的人类技能之一:与依赖他们健康的患者沟通交流的能力。

这对直接向聊天机器人寻求医疗建议的人群也有重大影响。我们难以想象有多少用户因为输入时的错别字而被ChatGPT误导不去就医。

"我们需要建立法规,将公平性作为临床AI的强制性性能标准,"她告诉该报。"你必须使用多样化且具有代表性的数据集进行训练。"

【全文结束】

声明:本文仅代表作者观点,不代表本站立场。

本页内容撰写过程部分涉及AI生成(包括素材的搜集与翻译),请注意甄别。

7日热榜