人工智能在医学领域已不再是推测性的概念,而是深度融入日常诊疗实践。AI系统能够标记高风险住院患者、协助放射科医生解读乳腺X光片、起草临床笔记、分诊患者信息,并通过聊天机器人和数字助手直接与患者互动。近期,这类技术的部署速度和可见度显著提升:OpenAI推出面向健康领域的ChatGPT,将通用语言模型定位为医疗信息与患者交互工具;犹他州启动AI辅助处方和临床决策系统试点,引发算法建议与医生判断及责任归属的讨论;OpenEvidence作为面向医护人员的AI医疗证据平台,已成为床旁决策的主导工具,表明医生正绕过传统IT系统直接采用AI技术;美国食品药品监督管理局(FDA)也放宽了对部分临床决策支持软件的监管,将安全性和有效性保障责任更多转移至开发者和医疗机构。
这些进展标志着转折点:AI正迅速从后台临床基础设施转向影响决策、工作流程和患者行为的高风险角色,其发展速度往往超过临床医生、政策制定者和公众对证据基础的理解能力。目前,FDA已批准超过1200款AI医疗工具,数十万款消费者健康应用依赖机器学习,医疗AI产业规模达数十亿美元,广泛覆盖医院、诊所和患者手机端。
然而,在加速应用的同时,一个根本问题仍未解决:在公告和研究中看似惊艳的技术,有多少能在真实临床实践中经受住考验? 许多"医师级"或"超人类"性能的宣称依赖狭窄基准或受控评估,未能反映日常诊疗中的不确定性、信息不全和工作流程复杂性。随着部署速度超越证据整合能力,区分持久临床价值与技术 hype 日益困难。
该报告旨在帮助临床医生、医疗系统领导者、政策制定者和公众区分真实进展与技术 momentum,并为2026年及未来的创新描绘现实图景。
这一差距正是ARISE网络于2026年1月发布的《2026年临床人工智能现状报告》的核心焦点。该报告由彼得·布罗多尔医学博士、文学硕士(Peter Brodeur, MD, MA)、伊桑·高医学博士(Ethan Goh, MD)、亚当·罗德曼医学博士(Adam Rodman, MD)和乔纳森·陈医学博士、哲学博士(Jonathan H. Chen, MD, PhD)领衔,汇集了斯坦福大学、哈佛大学及附属医疗系统在临床医学、计算机科学和卫生政策领域的多学科专家贡献。
报告并未聚焦个别工具或热点发布,而是通过回顾2025年最具影响力的临床AI研究,提出更务实的问题:当AI离开受控研究环境后,哪些领域能切实改善医疗?哪些领域性能会下降?哪些风险仍未充分审视?
狭窄评估中的亮眼表现
在研究环境中,现代AI系统常在纸面测试中表现优异。2025年多项研究显示,大型语言模型在固定临床案例的诊断推理和治疗规划上达到或超越医生水平(布罗多尔等人,2025;巴克利等人,2025),部分论文甚至描述为"超人类"。例如,某AI系统分析复杂急诊病例时,在特定决策节点的正确诊断率高于主治医师;另一项基于数十年医学案例讨论训练的AI,其生成的解释被临床医生评价为与人类专家相当。
但《临床人工智能现状》表明,这些结果往往取决于问题设定的狭窄程度。在一项实验中,研究人员将标准医学选择题修改为正确答案是"其他选项均不正确",临床推理要求未变,但主流AI系统的准确率却骤降逾三分之一(贝迪等人,《美国医学会杂志·网络开放》,2025)。其他研究发现,当AI需追问细节、处理不全信息或随新信息调整决策时,性能明显下滑(乔里等人,《自然医学》,2025)。在不确定性推理测试中,AI表现更接近医学生而非资深医师,且在高模糊情境下仍固执坚持错误答案(麦科伊等人,《新英格兰医学杂志AI》,2025)。日常医疗中不确定性普遍存在,这仍是当前AI系统最一致的挑战。
AI明确助力的领域:大规模预测
若诊断推理效果参差,预测领域则证据更为一致。报告回顾的多项研究表明,AI系统擅长在复杂大数据集中识别早期预警信号。某医院研究显示,基于连续可穿戴设备生命体征训练的模型,能在标准医院警报前8-24小时预测患者病情恶化,识别需转入ICU、发生心脏骤停或死亡风险的患者(谢德等人,《自然通讯》,2025)。另一项研究利用AI从数百万常规健康记录估算"生物学年龄",该指标预测死亡率比表观遗传时钟和虚弱评分等常用衰老标志更精准(李等人,《自然医学》,2025)。
这类系统在解决人类受限于规模而非判断力的问题时表现最佳。
基于数千万电子健康记录训练的大规模模型,还能在不针对每种疾病重新训练的情况下预测未来诊断和疾病轨迹(什马特科等人,《自然》,2025;瓦克斯勒等人,2025)。
多数研究仍脱离日常医疗
报告最具影响力发现之一关乎临床AI的评估方式。对500余项医学AI研究的综述显示,近半数使用医学考试式问题测试模型,仅5%采用真实患者数据;极少测量模型识别不确定性的能力,评估偏差或公平性的研究更少(贝迪等人,《美国医学会杂志》,2025)。
这至关重要,因临床工作很大程度上与答题无关。医生每日大量时间用于查阅病历、处理信息收件箱、协调护理及决定"不干预"的时机。2025年,研究人员开始开发更贴近现实的评估方法:部分将AI系统置入模拟电子病历,要求其检索信息、开具医嘱并完成多步骤工作流程(姜等人,《新英格兰医学杂志AI》,2025);其他通过医师评分的数千次真实患者对话评估AI(阿罗拉等人,2025)。这些环境中,推理模型虽有性能提升,但失败案例更具启示性——它们揭示了模型如何丢失上下文、忽略关键信息或自信地走向错误路径,为实践中的错误根源提供更清晰洞察。
重申AI作为队友而非替代者的最佳角色
跨临床场景,报告发现AI辅助医生而非取代医生时效益最稳定。德国放射科医生在可选咨询AI系统时,检出更多乳腺癌且未增加假警报(艾塞曼等人,《自然医学》,2025);初级保健中,医生借助AI更准确解读肺功能测试(多伊等人,《新英格兰医学杂志AI》,2025)。随机对照试验表明,结合AI与标准医疗资源的医生,比仅用传统工具者做出更优治疗决策(高等人,《自然医学》,2025);在肯尼亚,Penda Health与OpenAI合作部署的后台AI系统审查急诊就诊,为数万患者减少了诊断和治疗错误(科罗姆等人,2025)。
教训并非医生应回避AI,而是AI的引入和整合方式与其技术性能同等重要。
同时,报告记录了过度依赖的真实风险:多项研究中,医生即使能识别错误仍遵循不正确的AI建议,导致决策劣于未用AI的情况(卡齐等人,2025);其他研究对程序性任务中长期使用AI后的警觉性下降表示担忧(布津等人,2025)。
面向患者的AI:提供新参与模式需谨慎
直接与患者互动的AI系统扩散速度超过其他临床AI形式。聊天机器人现已用于症状分诊、解答用药疑问、提供慢性病指导及引导患者完成护理路径。这些工具承诺在难以导航的医疗系统中扩大规模和可及性。
早期研究显示潜力:在模拟初级护理场景中,对话式AI系统在诚实度、同理心和自信度等维度表现与医生相当(涂等人,《自然》,2025)。但市场力量可能推动供应商用模拟测试、参与度指标或短期流程衡量评估面向患者的AI,而非患者结局。鲜有研究追踪这些工具是否减少漏诊、改善长期健康或帮助患者更有效导航护理。
风险亦具独特性:患者可能过度信任听起来自信但缺乏完整临床背景的系统(谢卡尔等人,《新英格兰医学杂志AI》,2025);向人工护理的升级可能延迟或模糊,尤其当防护机制定义不清时。与面向医生的工具不同,面向患者的AI在决策时刻缺乏专业监督,错误代价更高。
报告并未否定面向患者的AI,但敦促保持谨慎,强调需更清晰证据、更强健的升级路径,以及聚焦结局而非仅参与度的评估框架。
报告的核心启示
总体而言,《2026年临床人工智能现状》提供了对评估实践落后于技术发展的罕见、循证概述。通过整合年度关键研究,报告清晰区分了受控研究中表现优异与真实临床环境中经得起考验的技术,揭示了AI已创造价值的领域、系统离开实验室后性能可能崩塌的环节,以及风险仍未充分审视的盲区。
人工智能已深度嵌入医疗体系,这一趋势难以逆转。本报告明确的是,下一阶段发展将不仅由更新模型驱动。
报告的价值在于重构对话:不再聚焦孤立演示或模型能力,而是聚焦证据、责任和临床相关性。它主张采用反映日常实践的评估方法、设计支持而非覆盖人类判断的系统,并通过部署后证据确定这些工具是否切实改善护理。
人工智能已融入医疗体系,这一趋势难以逆转。本报告明确的是,下一阶段发展将不仅由更新模型驱动,更取决于医疗系统、研究人员和监管机构是否愿意对AI应用与其他临床干预同等严格的证据标准。鉴于技术发展迅速且学术出版周期长,报告中许多研究涉及的模型已被新技术超越,但《2026年临床人工智能现状》强调:无论技术变革多快,该领域都需更审慎推进,将测量重点放在真实世界护理中真正重要的结局上。
【全文结束】

