AI在医疗诊断领域的应用被寄予厚望,尽管我必须补充一点,这一点尚未得到证实,尤其是在诊断评估这一从疾病到康复过程中最重要也是最具有决定性的一步。根据国家科学院、工程院和医学院研究所的一份审查报告,诊断错误率因最终裁决者而异,例如尸检显示20%的错误率,而使用临床结果则发现平均错误率为约11%,但具体数字因所考虑的疾病而异。诊断错误还会导致后续不适当或过度的检查和治疗,因此给医生一些AI的帮助似乎是个好主意,特别是因为AI在标准医学考试中的表现与医生相当甚至更好。然而,正如我之前引用过的著名诊断学家Yogi Berra所说:“理论上,理论与实践没有区别。实践中,有区别。”
《美国医学会杂志》(JAMA)上的一项新研究证明了这一点。该研究向50名初级护理住院医师和主治医生(包括家庭医学、内科和急诊医学的医生)展示了六个临床案例。对照组可以使用常规的、广泛可用的材料来得出他们的诊断结论;而实验组可以使用一种大型语言模型(LLM),具体来说是ChatGPT。这些案例来自真实病例,包括初次评估时的所有可用信息。研究测量了两个结果指标。次要结果是最常使用的诊断准确性。然而,在这项研究中,主要关注的是底层的临床推理。为了了解参与者们的诊断反思,他们被要求识别并评分[1]以下内容:
- 他们的前三个鉴别诊断
- 支持或反对每个诊断的病例因素
- 他们的最终诊断
- 进一步评估的最多三个步骤(如检查)
两组共完成了244个案例。使用AI的组完成案例的速度快15%,大约为8分40秒。AI组正确诊断的可能性是对照组的1.4倍。到目前为止,这对AI来说是好消息。然而,这些都只是研究人员关注的次要结果;真正的问题是AI的使用是否改善了临床推理。在这种情况下,AI的中位得分是76%,对照组是74%——没有差异。这在绿色(AI辅助)和蓝色(传统资源)框图和细线图的位置上直观呈现。仔细观察该图表可以发现,AI单独使用时的表现比作为医生工具时要好得多。
《新英格兰医学杂志》的一篇评论文章悄悄提到了这项研究,指出:“新的临床决策合作伙伴关系,由医生、AI代理和患者(及其照顾者或代理人)组成,可能会挑战许多假设。例如,在最近的一项研究中,使用AI辅助的医生在某些任务上的表现不如不使用AI工具的医生。” ——哈佛医学院生物医学信息学系主任Isaac Kohane博士
研究人员解释了为什么AI没有产生显著影响,指出所有参与者都没有接受过AI在诊断评估中使用的特定培训。他们指出,这种情况通常发生在AI被引入医院医生工作流程时。鉴于AI对话对人类初始提示的敏感性,他们建议医生接受如何更好地“提示”聊天机器人的培训。但从短期和长期来看,提高医生的推理能力不是更有帮助吗?最终,医生将负责监督。在评估AI工具的努力时,临床推理不是必不可少的吗?教授如何提示AI是否是医生教育时间的最佳利用?
正如研究人员迅速指出的那样,“本研究的结果不应被解读为建议在没有医生监督的情况下自主使用大型语言模型进行诊断……这并不能反映临床推理中许多其他重要领域的胜任力,包括患者访谈和数据收集。”
如果人类将继续监督,这显然是可见的未来,我们是否应该将稀缺资源更多地投入到提高人类的访谈和数据收集技能上?Kohane博士正确地写道:“对于任何新的临床干预措施,严格的试验是医学领域建立最佳实践的最佳工具。”
AI在医疗保健中的快速采用是由只衡量效率的管理人员推动的。毕竟,通过使用AI节省的1.5分钟诊断时间,可以在初级护理医生的一天中增加1到2次患者交易和收入。将AI部署为面向公众的电话、电子邮件和预约互动,可以实现更高的生产力,即增加盈利能力的代名词。但是,当临床护理出现问题时,其负面影响更大,我们不应假设AI会像行政方面一样提升临床水平。
Yuval Harari可能最好地描述了哪些社会角色和工作将被AI取代:“他们只想解决问题,还是希望与另一个有意识的存在建立关系?”
随着AI逐渐进入医疗保健领域,很容易将其视为神奇的诊断魔杖。但诊断不仅仅是效率问题,而是理解细微差别和知道该走哪条路——而这正是真正的人类临床推理的亮点。如果我们对AI抱有信任以支持医生,也许我们的重点应该是增强那些无法被提示或编码的人类技能。毕竟,医疗保健的最终目的不是提高效率,而是治愈人,而不是处理人。
[1] 表现评分标准如下:每个合理的诊断得1分,支持/反对的发现评分分别为0(错误)、1(部分正确)或2(完全正确)。最终诊断如果最准确得2分,如果是合理但不太具体的响应得1分。建议的下一步行动也按照相同的标准评分。
(全文结束)

