麻省理工学院(MIT)的一项新研究表明,常见的人类拼写错误和俚语可能会干扰设计用于辅助医护人员的人工智能(AI)程序,使其无法正确分析健康记录。
研究人员本周在希腊雅典举行的计算机协会(ACM)会议上报告称,拼写错误和多余的空格会影响AI正确分析患者记录的能力。
研究人员指出,性别代词缺失或使用俚语也可能破坏AI的治疗建议。他们补充说,这些变化更可能改变对女性的治疗建议,导致更高比例的女性被错误地建议不要寻求医疗护理。
“这些模型通常是在医学考试问题上进行训练和测试的,但随后却被用于与其相去甚远的任务,比如评估临床病例的严重性,”首席研究员阿比尼萨·古拉巴蒂娜(Abinitha Gourabathina)表示。她是麻省理工学院电气工程与计算机科学系的一名研究生,位于马萨诸塞州剑桥市。
研究人员在背景资料中提到,越来越多的研究正在探索人工智能为人类医生提供第二意见的能力。这些程序已经被用来帮助医生撰写临床笔记并分类患者信息。
这项研究始于古拉巴蒂娜进行的一系列实验。她在患者记录中交换性别线索,然后将其输入AI系统。她惊讶地发现,简单的格式错误会导致AI响应产生有意义的变化。
为了进一步探讨这个问题,研究人员通过交换或删除性别代词、在患者信息中插入额外空格或拼写错误,以及添加生动或不确定的语言来修改记录。
研究人员表示,生动的语言可能包括像“哇”这样的感叹词,或者像“真的”或“非常”这样的副词。不确定语言的例子包括像“有点”、“大概”、“可能”或“假设”这样的模糊词汇。
这些患者记录保留了所有临床数据,例如处方药和之前的诊断结果,同时添加了更能准确反映人们打字和说话方式的语言。
“这些模型所基于的医疗数据集通常是经过清理和结构化的,并不能真实反映患者群体,”古拉巴蒂娜说。“我们想看看这些非常现实的文本变化如何影响下游应用场景。”
研究团队将这些记录输入四个不同的人工智能系统,询问它们患者是否应在家管理症状、到诊所就诊,还是接受实验室检测以更好地评估病情。
结果显示,当这些人工智能系统接收到经过修改或“扰动”的数据时,它们推荐患者自行护理的可能性增加了7%到9%。研究人员表示,使用生动语言(如俚语或夸张表达)的影响最大。
模型还对女性患者产生了大约7%的更多错误,并且更倾向于建议女性在家自我管理,即使研究人员从记录中删除了所有性别线索。
研究人员补充说,目前正在进行同行评审的后续研究发现,同样的变化不会影响人类医生的准确性。研究人员计划继续他们的工作,测试更能模拟患者真实信息的记录。他们还计划研究人工智能程序如何从临床测试中推断性别。
研究人员在会议结束当天报告了他们的发现。在医学会议上展示的研究成果应被视为初步结果,直到在同行评审期刊上发表。
(全文结束)

