MIT研究称,即使是小错别字也可能影响AI医疗建议Even a small typo can throw off AI medical advice, MIT study says

环球医讯 / AI与医疗健康来源:www.medicaleconomics.com美国 - 英文2025-06-25 00:00:00 - 阅读时长3分钟 - 1429字
MIT的一项新研究表明,AI医疗模型对语法、格式和语气极为敏感,可能导致对女性和弱势群体的医疗建议产生偏差,强调了在高风险医疗环境中部署前严格审计AI模型的重要性。
AI医疗建议健康大型语言模型临床问询医疗服务公平性患者信息扰动护理建议差异AI脆弱性审计测试
MIT研究称,即使是小错别字也可能影响AI医疗建议

MIT研究人员发现,大型语言模型可能会因临床问询输入的形式差异而对女性和弱势患者提供不足的医疗服务。

© xy - stock.adobe.com

用于帮助分诊患者信息的人工智能(AI)模型可能比之前认为的对语法、格式和语气更加敏感,并对女性和其他弱势群体产生不成比例的影响,麻省理工学院(MIT)的一项新研究表明。

随着像OpenAI的GPT-4这样的大型语言模型(LLMs)被应用于临床环境,以帮助确定患者是否应自我管理、前来就诊或获得额外资源,这些发现引发了关于公平性、安全性和临床监督的新担忧。

“这是强有力的证据,表明在医疗保健领域使用模型之前必须对其进行审计——这是一个已经投入使用的场景,”该研究的资深作者、MIT副教授Marzyeh Ghassemi博士表示。“LLMs在平均表现上足够灵活和高效,我们可能会认为这是一个很好的用例。”

形式重于内容

这项研究——将在本周的计算机协会(ACM)公平性、问责制和透明度会议上展示——测试了九种风格和结构上的变化如何影响LLMs在超过6700个临床情景中的治疗建议。这些变化包括现实中的变体:拼写错误、夸张的语言、多余的空格、非正式的语法以及性别标志词的调换或删除。

为了测试效果,研究人员采用了三步流程:

  1. 首先,通过引入拼写错误或非正式措辞等小而现实的变化,创建患者信息的修改版本。
  2. 然后,将每个原始和修改后的信息输入LLM以收集治疗建议。
  3. 最后,比较LLM的原始和扰动响应之间的差异——观察一致性和准确性以及子组间的差异。以人工验证的答案作为基准。

尽管所有临床内容相同,但LLM的响应显著不同。在包括GPT-4在内的所有四个模型中,当信息受到明显扰动时,LLMs推荐自我管理而非医疗护理的可能性增加了7-9%。

最显著的变化发生在信息包含夸张或不确定语言的情况下,这表明有健康焦虑或英语非母语的患者即使需要护理,也可能被建议留在家中。

研究人员还发现,即使去除了性别提示词,LLMs更有可能减少对女性患者的护理建议。添加多余的空格使女性患者减少护理错误的风险增加了5%以上。

“在研究中,我们倾向于看汇总统计数据,但在翻译过程中会丢失很多东西,”该研究的主要作者、MIT电气工程与计算机科学系(EECS)研究生Abinitha Gourabathina说。“我们需要关注这些错误发生的方向——不建议就诊而应该就诊的危害要比相反情况大得多。”

在模拟患者-AI聊天机器人的对话格式中,当信息受到扰动时,临床准确性下降了约7%。受影响最大的情景涉及自由形式的患者输入,反映了现实世界的通信。

团队评估了四个不同的模型,涵盖肿瘤学、皮肤病学和普通医学的静态和对话数据集。每位真实临床医生先前已用验证答案标注了每个案例。

这意味着什么

该研究突显了研究人员所描述的“脆弱性”在AI医疗推理中的存在——患者书写方式的小的、非临床差异可以引导护理决策转向,而临床医生不会这样做。

人类医生不受相同变化的影响。在正在审查的后续工作中,研究人员发现改变信息的风格或语气并不会影响人类临床医生的判断,进一步凸显了LLMs的脆弱性。

研究人员表示,他们的研究结果支持在高风险环境中部署LLMs之前进行更严格的审计和子组测试,特别是面向患者的工具。

“这或许并不令人惊讶——LLMs并非设计为优先考虑患者的医疗护理,”Ghassemi说。“……我们不想优化一个只为特定群体患者工作的医疗系统。”


(全文结束)

大健康

猜你喜欢

  • AI突破推动“气闸”测试计划扩展 以支持AI驱动的医疗创新AI突破推动“气闸”测试计划扩展 以支持AI驱动的医疗创新
  • 医疗初创公司Abridge在A16z领投的融资轮中估值超50亿美元医疗初创公司Abridge在A16z领投的融资轮中估值超50亿美元
  • Abridge获3亿美元E轮融资,a16z与Khosla Ventures领投Abridge获3亿美元E轮融资,a16z与Khosla Ventures领投
  • 杜克大学研究人员开发评估AI工具的框架以改善医疗保健杜克大学研究人员开发评估AI工具的框架以改善医疗保健
  • 英国医疗专家称失禁护理质量差加剧NHS床位危机英国医疗专家称失禁护理质量差加剧NHS床位危机
  • Abridge的AI应用程序为医生做笔记,在融资中估值达53亿美元Abridge的AI应用程序为医生做笔记,在融资中估值达53亿美元
  • 新调查揭示患者对医疗领域人工智能的态度新调查揭示患者对医疗领域人工智能的态度
  • 法定健康保险医生需要安全的系统和数字化支持法定健康保险医生需要安全的系统和数字化支持
  • 脊柱外科医生的医疗科技公司进军非骨科领域脊柱外科医生的医疗科技公司进军非骨科领域
  • ETRI开发用于自闭症早期筛查的人工智能技术ETRI开发用于自闭症早期筛查的人工智能技术
大健康
大健康

热点资讯

大健康

全站热点

大健康

全站热文

大健康