评估人工智能和大语言模型在传染病与重症监护中的应用：性能、安全性与负责任的临床使用 - AI与医疗健康

评估人工智能和大语言模型在传染病与重症监护中的应用：性能、安全性与负责任的临床使用Frontiers | Evaluating Artificial Intelligence and Large Language Models in Infectious Disease and Critical Care: Performance, Safety, and Responsible Clinical Use

环球医讯 / AI与医疗健康来源：www.frontiersin.org瑞士 - 英语2026-05-23 09:35:16 - 阅读时长3分钟 - 1132字

这篇研究主题征集深入探讨了人工智能和大语言模型在传染病与重症监护领域应用中面临的性能评估、安全性和临床责任问题。随着AI工具在这些关键医疗领域的快速部署，其安全性和有效性的科学验证却严重滞后，可能导致危及生命的临床决策风险。该研究聚焦于系统评估AI在复杂医疗环境中的实际表现，特别关注诊断准确性、指南一致性、幻觉现象及故障模式分析，为临床医生提供评估AI工具安全性的科学方法论和决策框架。文章明确了九个关键研究方向，涵盖抗菌药物管理、脓毒症风险评估、基因组学方法对抗菌药物耐药性的应用等前沿领域，同时强调了在时间紧迫的临床环境中AI系统的可靠性验证以及当AI输出与临床判断冲突时的责任归属问题，对推动AI技术安全融入现代医疗体系具有重要指导意义。

评估人工智能和大语言模型在传染病与重症监护中的应用：性能、安全性与负责任的临床使用

人工智能工具和大语言模型在传染病和重症监护领域的部署速度已经超过了其安全性的证据基础。在这些环境中的临床医生经常会遇到AI生成的输出——诊断建议、抗菌药物推荐、脓毒症风险评分——这些系统的性能很少被评估是否符合他们必须应用的指南。在临床决策时间紧迫且直接影响患者安全的情况下，这一差距对患者安全有着直接的影响。

传染病和重症监护具有一些特点，使得AI评估既特别重要又特别具有挑战性：病情表现经常复杂、非典型且不断变化；指南需要与当地耐药模式和患者特定因素整合；而错误或过度自信的建议——如漏诊耐药微生物、不适当的抗菌药物选择、延误升级治疗——的后果非常严重。这些正是AI故障模式既最严重又研究最少的情况。

尽管有大量工作将AI和LLM应用于这些领域，但对这些工具是否按照临床标准执行的严格评估——基于当前指南的基准测试、在不同人群中的测试、以及对故障模式的透明度——仍然不足。这个研究主题解决了这一差距，重点关注AI和LLM在临床实践中的系统性能、可靠性和安全性评估，以及确定何时可以和不可以采取AI输出所需的框架。

这个研究主题不是为临床医生提供AI工具使用的培训，也不是孤立的模型开发或算法基准测试，而是面向需要严格方法来评估工具在特定环境中是否安全运行的执业临床医生和临床研究人员——以及当工具不安全时适当的临床响应框架。

我们邀请的投稿包括但不限于：