西奈山研究发现人工智能会像人类一样草率得出结论 - AI与医疗健康

西奈山研究发现人工智能会像人类一样草率得出结论Like humans, AI can jump to conclusions, Mount Sinai study finds

环球医讯 / AI与医疗健康来源：www.eurekalert.org美国 - 英语2025-07-30 02:15:18 - 阅读时长4分钟 - 1592字

西奈山的一项研究表明，即使是最先进的人工智能（AI）模型在面对复杂的医学伦理场景时，也会犯下出人意料的简单错误。研究团队受到丹尼尔·卡尼曼著作《思考，快与慢》的启发，测试了AI系统在处理经过修改的伦理困境时的表现，发现AI倾向于依赖熟悉的或直觉的答案，这在医疗决策中可能会产生严重后果。研究人员强调，AI在医疗实践中的应用需要人类的深思熟虑的监督，尤其是在需要伦理敏感性、细微判断或情感智能的情况下。

一项由西奈山伊坎医学院的研究人员与以色列拉宾医学中心及其他合作伙伴的同事进行的研究表明，即使是最先进的人工智能（AI）模型在面对复杂的医学伦理场景时，也会犯下出人意料的简单错误。

这项研究结果提出了关于何时以及如何依赖大型语言模型（LLMs）（如ChatGPT）在医疗环境中的重要问题，研究结果发表在7月22日在线版的《npj Digital Medicine》杂志上。

研究团队受到丹尼尔·卡尼曼（Daniel Kahneman）所著《思考，快与慢》一书的启发，该书对比了快速、直觉的反应与较慢、分析性的推理。已经观察到，大型语言模型（LLMs）在经典横向思维谜题受到微妙调整时会出现失误。基于这一洞察，该研究测试了AI系统在面对经过修改的著名伦理困境时，如何在这两种模式之间切换。

“人工智能可以非常强大和高效，但我们的研究表明，它可能会默认最熟悉或最直觉的答案，即使这种反应忽略了关键细节，”共同资深作者伊坎医学院风赖希人工智能与人类健康系主任兼首席生成式人工智能官埃亚尔·克兰（Eyal Klang）博士说道。“在日常情况下，这种思维方式可能不会被注意到。但在医疗领域，决策往往带有严重的伦理和临床影响，错过这些细微差别可能会对患者产生实际后果。”

为了探索这一倾向，研究团队使用了几种商业可用的LLMs，结合创造性横向思维谜题和稍作修改的著名医学伦理案例进行了测试。在一个例子中，他们改编了经典的“外科医生的困境”，这是一个广泛引用的1970年代谜题，突显了隐性性别偏见。在原始版本中，一个男孩和他的父亲在车祸中受伤，被紧急送往医院，外科医生惊叹道：“我不能给这个男孩做手术——他是我的儿子！”其中的转折是，外科医生是他的母亲，尽管由于性别偏见，许多人不会考虑这种可能性。在研究人员的修改版本中，他们明确表示男孩的父亲是外科医生，消除了歧义。即便如此，一些AI模型仍然回应说外科医生必须是男孩的母亲。这一错误揭示了LLMs如何固守熟悉的模式，即使与新信息相矛盾。

在另一个测试LLMs是否依赖熟悉模式的例子中，研究人员引用了一个经典的伦理困境，即宗教父母拒绝为他们的孩子进行挽救生命的输血。即使研究人员修改了场景，说明父母已经同意，许多模型仍然建议推翻不再存在的拒绝。

“我们的研究结果并不意味着人工智能在医学实践中没有一席之地，但它们确实突出了在需要伦理敏感性、细微判断或情感智能的情况下，需要深思熟虑的人类监督，”共同通讯作者、伊坎医学院风赖希人工智能与人类健康系主任、哈索·普拉特纳数字健康研究所主任、伊坎医学院医学教授、西奈山卫生系统首席人工智能官吉里什·N·纳德卡尼（Girish N. Nadkarni）博士说道。“当然，这些工具可以非常有帮助，但它们并非万无一失。医生和患者都应该明白，人工智能最好是作为增强临床专业知识的补充，而不是替代品，特别是在处理复杂或高风险决策时。最终目标是建立更可靠和道德上站得住脚的方式，将人工智能整合到患者护理中。”

“对熟悉案例的简单修改暴露了临床医生无法承受的盲点，”该研究的第一作者、拉宾医学中心大卫夫癌症中心血液学研究所的研究员谢莉·索弗（Shelly Soffer）博士说道。“这强调了为什么在将人工智能应用于患者护理时，必须保持人类的监督。”

接下来，研究团队计划通过测试更广泛的临床例子来扩展他们的工作。他们还在开发一个“人工智能保证实验室”，以系统地评估不同模型在处理现实世界医学复杂性方面的表现。

该论文的标题是“大型语言模型在医学伦理推理中的陷阱”。

该研究的作者，如期刊所列，是谢莉·索弗（Shelly Soffer）博士；维拉·索林（Vera Sorin）博士；吉里什·N·纳德卡尼（Girish N. Nadkarni）博士，公共卫生硕士；以及埃亚尔·克兰（Eyal Klang）博士。

【全文结束】