2024年10月,陈博士(Jonathan H. Chen)和吴博士(Ethan Goh)领导的研究团队在《JAMA Network Open》上发布了一项研究,该研究测试了聊天机器人在诊断疾病方面的表现,并发现其准确性高于医生,即使医生也在使用聊天机器人。目前这篇论文深入探讨了医学中较为复杂的一面,评估了聊天机器人和医生在一类称为“临床管理推理”的问题上的表现。
研究表明,人工智能驱动的聊天机器人在诊断某些复杂疾病方面已经相当出色。但是,聊天机器人在指导治疗和护理方面的表现如何?例如,在手术前多久应该停止服用处方抗凝药物?如果患者过去对类似药物有过不良反应,治疗方案是否应该改变?这些问题没有标准答案,需要医生根据情况进行判断。
斯坦福大学医学助理教授陈博士及其研究团队正在探索大型语言模型(LLM)类型的聊天机器人是否能够有效回答这些复杂的问题,以及在聊天机器人的帮助下,医生的表现是否会更好。
研究结果表明,答案是肯定的。研究团队测试了聊天机器人在面对各种临床决策时的表现。仅依靠互联网搜索和医学参考的医生,聊天机器人单独工作时的表现优于这些医生;而配备了LLM的医生,来自美国多个地区和机构的医生,表现与聊天机器人相当。
陈博士表示:“多年来我一直认为,人类与计算机结合在一起会比单独使用任何一个更好。我认为这项研究促使我们更批判地思考这一点,并问自己,‘计算机擅长什么?人类擅长什么?’我们需要重新考虑在哪里使用和结合这些技能,以及为哪些任务招募AI。”
该研究详细结果于2月5日发表在《Nature Medicine》上。陈博士和哈佛大学助理教授亚当·罗德曼博士(Adam Rodman)是共同资深作者。博士后学者吴博士(Ethan Goh)和罗伯特·加洛博士(Robert Gallo)是共同第一作者。
吴博士解释了诊断和管理推理的区别:想象一下,您正在使用手机地图应用程序导航到某个目的地。使用LLM进行疾病诊断类似于使用地图确定正确的位置。如何到达那里则是管理推理部分——例如,因为交通拥堵选择小路?还是继续排队等待?或者等待道路畅通?
在医学背景下,这些决定可能会变得复杂。例如,医生偶然发现住院患者肺部上方有一个较大的肿块。下一步该怎么做?医生或聊天机器人应认识到,肺上叶的大结节从统计学上看有很高的概率扩散到全身。医生可以选择立即对肿块进行活检,安排稍后的手术,或先进行影像检查以了解更多信息。
确定哪种方法最适合患者取决于许多细节,首先是患者的已知偏好。他们是否不愿意接受侵入性程序?患者的病史是否显示不按时复诊?医院的健康系统在组织复诊方面是否可靠?转诊呢?这些上下文因素至关重要,陈博士说道。
研究团队设计了一个试验,研究三个组别在临床管理推理方面的表现:单独的聊天机器人、46名有聊天机器人支持的医生和46名只有互联网搜索和医学参考的医生。他们选择了五个匿名患者案例,并让聊天机器人和医生分别提供书面回应,详细说明他们在每个案例中会做什么、为什么以及考虑了哪些因素。
此外,研究人员邀请了一组认证医生创建评分标准,以评估医疗判断或决策是否适当。然后根据评分标准对这些决策进行了评分。
令研究团队惊讶的是,聊天机器人在评分中超过了仅有互联网和医学参考的医生。然而,配备聊天机器人的医生表现与单独工作的聊天机器人一样好。
关于医生与聊天机器人协作取得提升的原因尚待讨论。使用LLM是否迫使医生更仔细地考虑病例?还是LLM提供了医生原本不会想到的指导?这是未来探索的方向,陈博士说。
聊天机器人和医生配对取得的积极成果引发了人们关注:AI医生是否即将出现?
“或许这对AI来说是一个加分点,”陈博士说。但他指出,这并不意味着AI会取代医生,而是医生可能希望欢迎聊天机器人的协助。“这并不意味着患者应该跳过医生直接去找聊天机器人。不要这样做,”他补充道,“有很多好的信息,但也有很多错误的信息。我们需要培养辨别哪些信息是可信的,哪些不是。这一点比以往任何时候都更加重要。”
该研究得到了Gordon and Betty Moore基金会、斯坦福临床卓越研究中心和VA高级医学信息学奖学金的支持。参与这项工作的还有来自VA Palo Alto卫生保健系统、Beth Israel Deaconess医学中心、哈佛大学、明尼苏达大学、弗吉尼亚大学、微软和凯撒医疗集团的研究人员。
(全文结束)

