由西奈山伊坎医学院的研究人员与以色列拉宾医学中心及其他合作机构的同事共同进行的一项研究表明,即使是最先进的人工智能(AI)模型在面对复杂的医疗伦理场景时也会犯下看似简单的错误。
这项研究结果提出了关于何时以及如何依赖大型语言模型(LLMs)的重要问题,例如ChatGPT,在医疗环境中的应用。研究结果发表在《npj数字医学》(NPJ Digital Medicine)期刊上,论文标题为“大型语言模型在医疗伦理推理中的陷阱”。
研究团队受到丹尼尔·卡尼曼(Daniel Kahneman)著作《思考,快与慢》(Thinking, Fast and Slow)的启发,该书对比了快速、直觉反应与较慢、分析性推理。研究发现,当经典横向思维谜题受到细微调整时,大型语言模型(LLMs)会遇到困难。
基于这一发现,研究测试了AI系统在面对刻意调整的知名伦理困境时,如何在两种模式之间切换的能力。
“AI可以非常强大且高效,但我们的研究表明,它可能会默认选择最熟悉或最直觉的答案,即使这种反应忽略了关键细节。”西奈山伊坎医学院风赖希人工智能与人类健康系的生成AI首席Eyal Klang医生表示。
“在日常情况下,这种思维方式可能不会被注意到。但在医疗领域,决策往往带有严重的伦理和临床影响,忽略这些细微差别可能对患者产生实际后果。”
为了探索这种倾向,研究团队使用了几种商业可用的LLMs,并结合创造性横向思维谜题以及略微修改的著名医疗伦理案例进行了测试。其中一个例子是改编自经典的“外科医生难题”,这是一个广泛引用的1970年代谜题,强调隐含的性别偏见。
在原始版本中,一名男孩与父亲在车祸中受伤后被紧急送往医院,外科医生惊呼:“我不能给这个男孩做手术——他是我的儿子!”谜题的转折在于,外科医生是男孩的母亲,但由于性别偏见,许多人没有考虑到这种可能性。
在研究人员的修改版本中,他们明确表示男孩的父亲就是外科医生,消除了歧义。即便如此,一些AI模型仍然回应说外科医生必须是男孩的母亲。这一错误表明,LLMs可能会固守熟悉的模式,即使有新的信息与之矛盾。
在另一个测试LLMs是否依赖熟悉模式的例子中,研究人员引用了一个经典的伦理困境:宗教信仰的父母拒绝为孩子接受救命的输血。即使研究人员修改了情境,说明父母已经同意,许多模型仍然建议推翻一个不再存在的拒绝。
“我们的研究结果并不意味着AI在医疗实践中没有一席之地,但它确实突显了在需要伦理敏感性、细致判断或情感智能的情况下,人类监督的必要性。”西奈山伊坎医学院风赖希人工智能与人类健康系主任、哈索·普拉特纳数字健康研究所主任、医学教授Girish N. Nadkarni医生表示。
“当然,这些工具可以非常有帮助,但它们并非无懈可击。医生和患者都应该明白,AI最好的用途是作为增强临床专业知识的辅助工具,而不是替代品,尤其是在处理复杂或高风险决策时。最终目标是建立更可靠和符合伦理的AI整合到患者护理中的方式。”
“对熟悉案例的简单调整暴露了临床医生无法承受的盲点。”该研究的主要作者、拉宾医学中心戴维夫癌症中心血液学研究所研究员Shelly Soffer医生表示,“这进一步说明了在部署AI用于患者护理时,人类监督必须始终处于核心地位。”
接下来,研究团队计划通过测试更广泛的临床案例来扩展他们的工作。他们还在开发一个“AI保证实验室”,以系统评估不同模型处理现实世界医疗复杂性的能力。
更多信息:
Pitfalls of Large Language Models in Medical Ethics Reasoning, npj Digital Medicine (2025). DOI: 10.1038/s41746-025-01792-y
期刊信息:npj Digital Medicine
提供单位:The Mount Sinai Hospital
【全文结束】

