一项由西奈山伊坎医学院的研究人员与以色列拉宾医学中心及其他合作者进行的研究表明,即使是最高级的人工智能 (AI) 模型在面对复杂的医疗伦理情境时也会犯令人惊讶的简单错误。
这项研究引发了关于在医疗保健环境中何时以及如何依赖大型语言模型 (LLMs) 的重要问题,并于 2025 年 7 月 22 日在线发表在《NPJ 数字医学》(NPJ Digital Medicine) 上。
研究团队的灵感来源于丹尼尔·卡尼曼 (Daniel Kahneman) 的著作《思考,快与慢》(Thinking, Fast and Slow),该书对比了快速、直觉的反应与缓慢、分析性的推理。人们已经注意到,当经典横向思维谜题出现细微变化时,大型语言模型 (LLMs) 会出现失误。基于这一见解,该研究测试了 AI 系统在面对经过刻意修改的知名伦理困境时,在这两种模式之间切换的能力。
西奈山伊坎医学院人工智能与人类健康温德赖希系 (Windreich Department of Artificial Intelligence and Human Health) 的生成式人工智能主管、共同资深作者埃亚尔·克朗 (Eyal Klang) 医学博士表示:“人工智能可能非常强大和高效,但我们的研究表明,它可能会默认选择最熟悉或最直观的答案,即使这种反应忽略了关键细节。在日常情况下,这种思维方式可能不会被注意到。但在医疗保健领域,由于决策通常带有重要的伦理和临床影响,忽略这些细微差别可能会对患者产生实际后果。”
为了探索这种倾向,研究团队使用了一些商业可用的 LLM 模型,结合创造性横向思维谜题和稍作修改的知名医学伦理案例进行了测试。其中一个例子改编自经典的“外科医生的困境”——一个广为人知的 20 世纪 70 年代谜题,它突显了隐性性别偏见。在原始版本中,一名男孩在车祸中与父亲一起受伤,被紧急送往医院,外科医生喊道:“我不能给这个男孩做手术——他是我的儿子!”谜题的转折在于,外科医生是男孩的母亲,但许多人由于性别偏见而没有考虑到这种可能性。在研究人员修改后的版本中,他们明确表示男孩的父亲就是外科医生,从而消除了歧义。即便如此,一些 AI 模型仍然回答说外科医生必须是男孩的母亲。这个错误揭示了 LLM 模型如何坚持熟悉的模式,即使这些模式与新信息相矛盾。
另一个测试 LLM 是否依赖熟悉模式的例子,研究人员借鉴了一个经典的伦理困境:宗教信仰的父母拒绝为他们的孩子接受挽救生命的输血。即使研究人员修改了情景,说明父母已经同意,许多模型仍然建议推翻一个实际上已经不存在的拒绝决定。
西奈山人工智能与人类健康温德赖希系主任、西奈山伊坎医学院医学信息学 Irene 和 Dr. Arthur M. Fishberg 教授、西奈山健康系统首席人工智能官、共同通讯作者 Girish N. Nadkarni 医学博士表示:“我们的研究结果并不意味着人工智能在医学实践中没有一席之地,但它们确实突出了在需要伦理敏感性、细致判断或情感智能的情况下,需要有思想的人类监督。这些工具自然可以非常有用,但它们并非无懈可击。医生和患者都应该明白,人工智能最好被用作增强临床专业知识的补充工具,而不是取代它,尤其是在处理复杂或高风险决策时。最终目标是建立更可靠和符合伦理的人工智能整合到患者护理中的方式。”
“对熟悉案例的简单修改暴露了临床医生无法承受的盲点,”研究第一作者、拉宾医学中心大卫癌症中心血液学研究所研究员 Shelly Soffer 医学博士表示,“这突显了在将人工智能应用于患者护理时,人类监督必须保持核心地位。”
接下来,研究团队计划通过测试更广泛的临床实例来扩展他们的工作。他们还在开发一个“人工智能保证实验室”,以系统评估不同模型处理现实世界医疗复杂性的能力。
这篇论文的标题为《大型语言模型在医疗伦理推理中的陷阱》(Pitfalls of Large Language Models in Medical Ethics Reasoning)。
研究作者包括 Shelly Soffer 医学博士;Vera Sorin 医学博士;Girish N. Nadkarni 医学博士、公共卫生硕士;以及 Eyal Klang 医学博士。
【全文结束】

