人工智能(AI)正在改变我们的世界。但是,它能否改善医生的诊断,超越传统方法?弗吉尼亚大学(UVA)的一项研究表示,目前还不能。
尽管医院已经在使用人工智能(AI)来改善患者护理,但一项新的研究发现,使用Chat GPT Plus并不会显著提高医生诊断的准确性,与使用常规资源相比。这项由UVA Health的安德鲁·S·帕森斯博士(Andrew S. Parsons, MD, MPH)及其同事进行的研究,招募了50位家庭医学、内科和急诊医学的医生来测试Chat GPT Plus。一半的医生被随机分配使用Chat GPT Plus来诊断复杂病例,而另一半则依赖传统的诊断方法,如医学参考网站(例如UpToDate®)和Google。研究人员随后比较了两组的诊断结果,发现两组的准确性相似。
然而,单独使用的Chat GPT的表现优于两组,这表明它在改善患者护理方面仍具有潜力。研究人员得出结论,医生需要更多的培训和经验来利用这一新兴技术。目前,Chat GPT最好用于辅助而非替代人类医生。
“我们的研究表明,AI本身可以是一个有效且强大的诊断工具,”帕森斯说,他负责弗吉尼亚大学医学院医学生的临床技能教学,并共同领导临床推理研究合作组。“我们惊讶地发现,加入人类医生实际上降低了诊断准确性,尽管提高了效率。这些结果可能意味着我们需要正式培训,以了解如何最佳地使用AI。”
Chat GPT用于疾病诊断
生成类人响应的聊天机器人(大型语言模型)越来越受欢迎,它们已经展示了出色的能力,可以记录患者病史、同理心交流甚至解决复杂的医疗案例。但目前,它们仍然需要人类医生的参与。帕森斯和他的同事们热衷于确定这种高科技工具如何最有效地使用,因此他们在三家尖端医院——UVA Health、斯坦福大学和哈佛大学的贝丝以色列女执事医疗中心——启动了一项随机对照试验。
参与的医生根据真实患者护理案例的“临床场景”进行了诊断。这些案例研究包括患者的病史、体格检查和实验室检测结果的详细信息。研究人员随后对结果进行了评分,并考察了两组医生做出诊断的速度。使用Chat GPT Plus的医生的中位诊断准确率为76.3%,而使用传统方法的医生的中位诊断准确率为73.7%。使用Chat GPT Plus的医生整体上稍微更快地做出了诊断——平均用时519秒,而传统方法的医生平均用时565秒。
研究人员对单独使用的Chat GPT Plus表现出色感到惊讶,其诊断准确率的中位数超过92%。他们认为这可能反映了研究中使用的提示词,建议医生可能需要接受关于如何有效使用提示词的培训。或者,医疗机构可以购买预定义的提示词,以在临床工作流程和文档中实施。
研究人员还警告说,在现实生活中,Chat GPT Plus的表现可能会较差,因为许多其他方面的临床推理也会起作用,尤其是在确定诊断和治疗决策的下游影响方面。他们呼吁进行更多研究,评估大型语言模型在这些领域的表现,并正在进行类似的管理决策研究。“随着AI在医疗保健中的应用越来越多,我们必须了解如何利用这些工具来改善患者护理和医生体验,”帕森斯说。“这项研究表明,在优化我们与AI在临床环境中的合作方面,还有大量工作要做。”
继这项开创性工作之后,四个研究地点还启动了一个名为ARiSE(AI Research and Science Evaluation)的双海岸AI评估网络,以进一步评估医疗保健中的生成式AI输出。更多信息请访问ARiSE网站。
研究成果发表
研究人员已在科学期刊《JAMA Network Open》上发表了他们的研究成果。研究团队包括Ethan Goh、Robert Gallo、Jason Hom、Eric Strong、Yingjie Weng、Hannah Kerman、Joséphine A. Cool、Zahir Kanjee、Parsons、Neera Ahuja、Eric Horvitz、Daniel Yang、Arnold Milstein、Andrew P.J. Olson、Adam Rodman和Jonathan H. Chen。这项研究的资金由戈登和贝蒂·摩尔基金会提供。论文中列出了完整的披露和资金来源。
(全文结束)

