上下文错误限制医疗AI在实际应用中的表现
医疗人工智能是一个极具吸引力的概念。理论上,模型可以分析大量信息,识别数据中的细微模式,并且永远不会因为疲倦或忙碌而无法提供回应。然而,尽管学术界和工业界已经并继续开发了数千种这样的模型,但其中很少有成功过渡到实际临床环境中的。
哈佛医学院Blavatnik研究所的生物医学信息学副教授Marinka Zitnik及其同事正在探索原因——以及如何缩小医疗AI模型在标准化测试案例中的表现与它们在医院和医生诊所等场所部署时遇到的问题之间的差距。
在2月3日发表在《自然医学》杂志上的一篇论文中,研究人员确定了这一差距的一个主要因素:上下文错误。
他们解释说,医疗AI模型可能产生在一定程度上有用且正确的回应,但对于模型使用的特定上下文(包括医学专业、地理位置和社会经济因素等)来说,这些回应不一定准确。
"这不是一个小故障,"同时也是哈佛大学Kempner自然与人工智能研究所副教员的Zitnik说,"这是我们领域正在开发的所有类型医疗AI模型的一个广泛限制。"
在接受《哈佛医学新闻》采访时,Zitnik解释了医疗AI模型中上下文错误是如何发生的,研究人员如何克服这一和其他挑战,以及她对医学AI未来的展望。本次采访经过了编辑以提高长度和清晰度。
哈佛医学新闻: 为什么会出现上下文错误?如何修复?
Marinka Zitnik: 我们认为这是因为用于训练医疗AI模型的数据集不包含做出临床决策的重要信息。因此,模型生成的建议看起来合理且明智,但实际上对患者来说并不相关或可操作。
哈佛医学新闻: 你给出了三个关于缺乏上下文如何导致医疗AI模型错误的例子。能详细说明一下吗?
Zitnik: 让我们从医学专业开始。患者可能有跨越多个专业的复杂症状。如果一名患者因神经系统症状和呼吸问题来到急诊室,他们可能会被转诊给神经科医生,然后是肺科医生。每位专家都带来了由其培训和经验塑造的深厚专业知识,因此可以理解地专注于自己的器官系统。一个主要在一个专业上训练的AI模型可能会做同样的事情,这意味着它可能会基于错误专业的数据提供答案,或者错过症状组合指向多系统疾病的情况。
相反,我们需要开发在多个专业上训练的医疗AI模型,能够实时切换上下文,专注于最相关的信息。
哈佛医学新闻: 地理位置的上下文呢?
Zitnik: 如果模型在不同的地理位置被提出相同的问题并给出相同的答案,那答案很可能是不正确的,因为每个地方都会有特定的条件和限制。如果一名患者容易患上可能导致器官功能障碍或衰竭的疾病,临床医生需要确定患者的风险并制定管理计划。然而,该患者是在南非、美国还是瑞典,可能在该疾病的普遍程度以及批准和可用的治疗和程序方面有很大差异。
我们设想一种能够整合地理信息以生成特定于位置、因此更准确的回应的模型。我们在实验室中正在研究这一点,我们认为这对全球健康可能有重大影响。
哈佛医学新闻: 第三个例子,影响患者行为的社会经济和文化因素呢?
Zitnik: 假设一名患者之前被转诊给肿瘤科医生但从未预约,随后因严重症状出现在急诊室。急诊科医生的典型回应可能是提醒患者预约肿瘤科。然而,这忽略了潜在的障碍,例如患者住在离肿瘤科医生很远的地方,没有可靠的儿童保育,或不能缺勤工作。这些类型的限制在患者的电子健康记录中并不明确存在,这意味着帮助管理患者的AI模型也不会考虑这些因素。
更好的模型会考虑这些因素,提供更现实的建议,例如提供交通选择或在适应儿童保育或工作限制的时间安排预约。这样的模型将增加更广泛患者的医疗可及性,而不是强化不平等。
相关故事
- 一种确认你确实服用了药物的药丸
- AI识别有希望的CDK9抑制剂用于癌症治疗
- 胸部X光的AI分析可能揭示衰老的早期迹象
哈佛医学新闻: 除了上下文错误外,医疗AI实施还有哪些主要挑战?
Zitnik: 有很多。其中一个与患者、临床医生、监管机构和其他利益相关者对医疗AI模型的信任程度有关。我们需要确定既能确保模型可信又能促进对这些模型信任的机制和策略。我们认为答案与构建提供透明且易于解释的建议并在对其结论不自信时说"我不知道"的模型有关。
另一个挑战与人机协作有关。目前,许多人将人机界面视为聊天机器人的背景,你输入问题并得到回应。我们需要人们可以接收针对其特定背景和专业知识水平定制的回应的界面——例如,适合普通受众与医学专家的内容。我们还需要临床医生或患者与AI模型双向交换信息的界面。真正的协作意味着有一个AI模型必须完成的问题、目标或任务,并且为了完成它,它可能需要从用户那里寻求更多信息。
哈佛医学新闻: 如果挑战能够克服,你认为医疗AI的前景是什么?
Zitnik: 一些模型已经通过使日常医疗工作更高效而产生了影响。例如,模型帮助临床医生起草患者记录,并帮助研究人员快速找到可能与临床问题相关的科学论文。
我特别兴奋于AI模型为改善治疗创造的机会。能够切换上下文的模型可以根据治疗过程中不同部分最有用的信息调整其输出。例如,模型可能会从分析症状转向建议可能的原因,再到提供关于在类似患者中有效的治疗的证据。然后,模型可能会转向提供关于患者先前药物、潜在药物副作用以及实际可用的治疗的实际信息。如果做得好,它可以帮助临床医生为患有多种疾病和药物的复杂患者量身定制治疗决策,这些可能超出标准治疗指南。
哈佛医学新闻: 我们如何确保医疗AI模型带来的好处多于伤害?
Zitnik: 我确实认为医疗保健中的AI将会持续存在。尽管这项技术并不完美,但它已经在被使用,因此医疗AI社区的每个人都需要共同努力,确保它以负责任的方式开发和实施。这包括在设计和改进模型时考虑实际应用,进行实际测试以了解模型在哪些方面成功,在哪些方面不足,以及制定模型应如何部署的指南。如果AI研究人员在开发这些模型时保持一致,并且我们提出正确的问题,我感到乐观的是,我们可以及早发现任何问题。
最后,我认为医疗AI模型将有许多机会改善医学研究和临床工作的效率,并改善患者护理。
来源:
哈佛医学院
参考文献:
Li, M. M., 等. (2026). Scaling medical AI across clinical contexts. Nature Medicine. DOI: 10.1038/s41591-025-04184-7.
发布于:设备/技术新闻 | 医疗保健新闻
【全文结束】

