普通的人为打字错误可能会使设计用于帮助医护人员审查健康记录的人工智能(AI)程序陷入混乱。这是麻省理工学院(MIT)一项新研究得出的结论。
研究人员在希腊雅典举行的计算机协会会议上报告称,拼写错误和多余的空格会干扰人工智能正确分析患者记录的能力。研究人员还指出,性别指代缺失或使用俚语也可能导致人工智能的治疗建议出现问题。
这些人为错误或语言选择增加了人工智能建议患者自行管理健康问题而不是预约就医的可能性。研究结果显示,女性患者的治疗建议更可能因此改变,导致更多女性被错误建议不寻求医疗帮助。
“这些模型通常是在医学考试题目上进行训练和测试的,但后来却被用于与此相去甚远的任务,例如评估临床病例的严重性,”首席研究员阿比尼萨·古拉巴蒂娜(Abinitha Gourabathina)表示。她是麻省理工学院电气工程与计算机科学系的一名研究生,现居马萨诸塞州剑桥市。
研究人员在背景说明中表示,越来越多的研究正在探索人工智能为人类医生提供第二意见的能力。这些程序已经被用来帮助医生起草临床笔记并对患者信息进行分类处理。
这项研究始于古拉巴蒂娜进行的一系列实验。她在患者记录中交换了性别线索,然后将其输入人工智能系统。令她惊讶的是,简单的格式错误会导致人工智能响应出现有意义的变化。
为了进一步探讨这个问题,研究人员通过交换或删除性别指代、在患者消息中插入额外空格或拼写错误,或添加生动或不确定的语言来修改记录。
研究人员表示,生动的语言可能包括感叹词如“哇”,或副词如“真的”或“非常”。不确定语言的例子则包括模糊词汇如“有点”、“可能是”、“大概”或“假设”。
这些患者记录保留了所有临床数据,例如处方药和既往诊断,同时加入了更能反映人们实际打字和说话方式的语言。
“这些模型所训练的医学数据集通常经过清理和结构化处理,并不能真实反映患者群体,”古拉巴蒂娜说。“我们想看看这些非常真实的文本变化如何影响下游应用场景。”
研究人员将这些记录输入四个不同的人工智能系统,并询问它们患者是否应该在家管理症状、到诊所就诊,或者接受实验室检测以更好地评估病情。
结果显示,当人工智能被输入修改后的或“扰动”的数据时,它们推荐患者自行护理的可能性增加了7%到9%。
研究人员表示,像俚语或戏剧性表达这样的生动语言对结果的影响最大。
此外,人工智能模型对女性患者的错误率也高出约7%,并且更有可能建议女性在家自我管理——即使研究人员从记录中删除了所有的性别线索。
研究人员补充道,目前正在审查中的后续研究发现,同样的变化并未影响人类医生的准确性。
研究人员计划继续他们的工作,测试更贴近患者真实信息的记录。他们还计划研究人工智能程序如何从临床测试中推断性别。
研究人员在当天结束的会议上报告了他们的研究结果。需要注意的是,在医学会议上展示的研究成果应在同行评审期刊发表后才被视为最终结论。
(全文结束)

