人机团队提供最准确的医学诊断 - AI与医疗健康

人机团队提供最准确的医学诊断Human-AI Teams Deliver Most Accurate Medical Diagnoses

环球医讯 / AI与医疗健康来源：www.miragenews.com德国 - 英语2025-06-20 23:00:00 - 阅读时长4分钟 - 1669字

一项由马克斯·普朗克人类发展研究所领导的研究发现，结合人类专家和AI系统的混合诊断集体在复杂、开放性诊断问题上比仅由人类或AI组成的集体更准确。研究使用了超过2,100个临床案例，并分析了超过40,000个诊断结果。

诊断错误是日常医疗实践中最严重的问题之一。人工智能系统——尤其是像ChatGPT-4、Gemini或Claude 3这样的大型语言模型（LLMs）——提供了新的方法来高效支持医学诊断。然而，这些系统也带来了相当大的风险——例如，它们可能会“幻觉”并生成虚假信息。此外，它们会再现现有的社会或医学偏见，并且会犯一些常常让人类困惑的错误。

一个国际研究团队，由马克斯·普朗克人类发展研究所领导，并与旧金山的人类诊断项目和意大利国家研究委员会认知科学和技术研究所合作，研究了人类和AI如何最佳协作。结果表明：由人类专家和AI系统组成的混合诊断集体比仅由人类或AI组成的集体显著更准确。这尤其适用于复杂、开放性的诊断问题，而不是简单的对错决策。“我们的结果显示，人类和AI模型的合作具有巨大的潜力来提高患者的安全性。”马克斯·普朗克人类发展研究所适应理性中心的博士后研究员尼古拉斯·佐勒说。

使用超过2,100个临床案例进行的现实模拟

研究人员使用了来自人类诊断项目的数据，该项目提供了临床案例简述——即医学病例研究的简短描述——以及正确的诊断结果。通过使用超过2,100个这样的案例，该研究比较了医学专业人士和五个领先AI模型的诊断结果。在核心实验中，模拟了各种诊断集体：个人、人类集体、AI模型和混合人类-AI集体。总共分析了超过40,000个诊断结果。每个结果都根据国际医学标准（SNOMED CT）进行了分类和评估。

人类和机器互补——甚至在他们的错误中也是如此

研究表明，结合多个AI模型可以提高诊断质量。平均而言，AI集体的表现优于85%的人类诊断者。然而，在许多情况下，人类表现得更好。有趣的是，当AI失败时，人类往往知道正确的诊断结果。

最大的惊喜是，将两个世界结合起来导致了准确性显著提高。即使在一个由人类诊断者组成的小组中添加一个AI模型——或者反之亦然——也会显著改善结果。最可靠的结果来自涉及多个AI和多个AI的集体决策。解释是，人类和AI会系统地犯不同的错误。当AI失败时，一个人类专业人员可以弥补这个错误——反之亦然。这种所谓的错误互补性使混合集体如此强大。“这不是要用机器取代人类。相反，我们应该将人工智能视为一种补充工具，它在集体决策中发挥其全部潜力。”马克斯·普朗克人类发展研究所高级研究员斯特凡·赫尔佐格说。

然而，研究人员也强调了他们工作的局限性。该研究仅考虑了基于文本的案例简述——而不是实际患者在真实临床环境中的情况。未来的研究需要解决这些结果是否可以直接应用于实践的问题。同样，该研究仅关注诊断，而非治疗，而正确的诊断并不一定保证最佳的治疗。

此外，AI支持系统在实践中被医务人员和患者接受的程度仍不确定。AI和人类可能存在的偏见和歧视风险，特别是在种族、社会或性别差异方面，也需要进一步研究。

混合人类-AI集体的广泛应用

该研究是“开放决策中的混合人类-人工智能集体智能”（HACID）项目的一部分，该项目由Horizon Europe资助，旨在通过智能整合人类和机器智能来促进未来临床决策支持系统的发展。研究人员特别看到了在医疗资源有限地区的潜力。混合人类-AI集体可以在这些地区为更大的医疗公平做出重要贡献。

“这种方法也可以转移到其他关键领域——如法律系统、灾害响应或气候政策——任何需要复杂、高风险决策的地方。例如，HACID项目还在开发增强气候适应决策的工具。”HACID项目的协调员维托·特里安尼说。

简要总结：