麻省理工学院(MIT)的一项新研究表明,用于提供医疗建议的大型语言模型(LLMs)可能会受到患者信息中非临床因素的影响,例如拼写错误、多余空格、性别标记缺失或非正式和夸张的语言。这些风格上的小变化可能导致模型错误地建议患者自行处理严重健康问题,而不是寻求专业医疗服务。这种由非临床语言引发的不一致性在对话场景中尤为突出,而这正是面向患者的聊天机器人常见的使用场景。
该研究在ACM公平性、问责制与透明度会议之前发布,结果显示,当患者信息中包含上述变化时,模型推荐自我管理的比例增加了7-9%。这种影响对女性患者尤为显著,即使在没有性别提示的临床背景下,模型对女性患者做出的错误判断比男性多出约7%,并更倾向于建议女性留在家中。
“这是强有力的证据,表明在医疗领域部署这些模型之前必须对其进行审查,因为它们已经在使用中了,”MIT副教授兼资深作者马尔齐耶·加塞米(Marzyeh Ghassemi)表示。“大型语言模型会以我们以前不了解的方式考虑非临床信息。”
主要作者阿比尼萨·古拉巴希纳(Abinitha Gourabathina),一名MIT研究生,指出这些模型通常基于医学考试问题进行训练,并被用于评估临床严重性等任务,但其局限性尚未得到充分研究。“关于大型语言模型,我们还有很多不了解的地方,”她说道。
研究还发现,丰富多彩的语言(如俚语或戏剧性表达)对模型错误的影响最大。然而,后续研究表明,人类临床医生并未受到这些信息变化的影响。“大型语言模型并非设计用来优先考虑患者护理,”加塞米补充道,她敦促在涉及高风险医疗决策时谨慎使用这些模型。
研究人员计划进一步研究大型语言模型如何推断性别,并设计测试以揭示其他患者群体中的潜在漏洞,旨在提高AI在医疗保健领域的可靠性。
(全文结束)

