人工智能(AI)正在改变我们的世界。但与传统方法相比,它能否改善医生的诊断?弗吉尼亚大学的一项研究表明,目前还不能。
尽管医院已经开始使用人工智能来改善患者护理,但一项新研究发现,使用Chat GPT Plus并不会显著提高医生诊断的准确性,与使用常规资源(如医学参考网站和Google)相比。该研究由弗吉尼亚大学健康系统的安德鲁·S·帕森斯博士及其同事进行,招募了50名家庭医学、内科和急诊医学的医生来测试Chat GPT Plus。一半的医生被随机分配使用Chat GPT Plus来诊断复杂病例,而另一半则依赖传统的诊断方法,如医学参考网站(例如UpToDate®)和Google。研究人员随后比较了两组的诊断结果,发现两者的准确性相似。
然而,单独使用Chat GPT的表现优于两组,表明它在改善患者护理方面仍具有潜力。研究人员得出结论,医生需要更多的培训和经验才能充分利用这一新兴技术。目前,Chat GPT最适合用于辅助而非替代人类医生。
“我们的研究表明,AI本身可以成为一种有效且强大的诊断工具,”帕森斯说,他负责弗吉尼亚大学医学院医学生临床技能的教学,并共同领导临床推理研究合作组织。“我们惊讶地发现,加入人类医生实际上降低了诊断的准确性,尽管提高了效率。这些结果可能意味着我们需要接受如何最好地使用AI的正式培训。”
Chat GPT用于疾病诊断
生成类人响应的聊天机器人(即大型语言模型)越来越受欢迎,它们展示了令人印象深刻的能力,可以记录病史、同理心沟通,甚至解决复杂的医疗案例。然而,目前它们仍然需要人类医生的参与。帕森斯和他的同事们热衷于确定这种高科技工具如何最有效地使用,因此他们在三家领先的医院——弗吉尼亚大学健康系统、斯坦福大学和哈佛大学的贝丝以色列女执事医疗中心——启动了一项随机对照试验。
参与的医生根据基于真实患者护理案例的“临床案例”做出诊断。这些案例研究包括患者的病史、体检和实验室检测结果的详细信息。研究人员随后对结果进行评分,并考察两组医生做出诊断的速度。使用Chat GPT Plus的医生的中位诊断准确率为76.3%,而使用传统方法的医生的准确率为73.7%。Chat GPT Plus组成员总体上稍快一些,平均用时519秒,而传统方法组用时565秒。
研究人员对Chat GPT Plus单独使用的中位诊断准确率超过92%感到惊讶。他们认为这可能反映了研究中使用的提示,建议医生可能受益于如何有效使用提示的培训。或者,医疗机构可以购买预定义的提示,以在临床工作流程和文档中实施。
研究人员还警告说,Chat GPT Plus在现实生活中可能表现不佳,因为在临床推理中涉及许多其他方面,特别是在确定诊断和治疗决策的后续影响方面。他们呼吁进行更多研究,评估大型语言模型在这些领域的表现,并正在进行类似的管理决策研究。
“随着AI在医疗保健中的应用越来越多,了解如何利用这些工具来改善患者护理和医生体验至关重要,”帕森斯说。“这项研究表明,在优化我们与AI在临床环境中的合作方面还有大量工作要做。”
为了进一步评估生成式AI在医疗保健中的输出,这四个研究地点还启动了一个名为ARiSE(AI研究和科学评估)的双海岸AI评估网络。更多信息请访问ARiSE网站。
(全文结束)

