AI能否改善医生的诊断？研究发现结果 - AI与医疗健康

AI能否改善医生的诊断？研究发现结果Does AI Improve Doctors’ Diagnoses? Study Finds Out

环球医讯 / AI与医疗健康来源：newsroom.uvahealth.com美国 - 英语2024-11-13 22:00:00 - 阅读时长3分钟 - 1361字

一项由弗吉尼亚大学领导的研究发现，尽管Chat GPT Plus在某些方面表现出色，但它并未显著提高医生诊断的准确性。

人工智能（AI）正在改变我们的世界。但与传统方法相比，它能否改善医生的诊断？弗吉尼亚大学的一项研究表明，目前还不能。

尽管医院已经开始使用人工智能来改善患者护理，但一项新研究发现，使用Chat GPT Plus并不会显著提高医生诊断的准确性，与使用常规资源（如医学参考网站和Google）相比。该研究由弗吉尼亚大学健康系统的安德鲁·S·帕森斯博士及其同事进行，招募了50名家庭医学、内科和急诊医学的医生来测试Chat GPT Plus。一半的医生被随机分配使用Chat GPT Plus来诊断复杂病例，而另一半则依赖传统的诊断方法，如医学参考网站（例如UpToDate®）和Google。研究人员随后比较了两组的诊断结果，发现两者的准确性相似。

然而，单独使用Chat GPT的表现优于两组，表明它在改善患者护理方面仍具有潜力。研究人员得出结论，医生需要更多的培训和经验才能充分利用这一新兴技术。目前，Chat GPT最适合用于辅助而非替代人类医生。

“我们的研究表明，AI本身可以成为一种有效且强大的诊断工具，”帕森斯说，他负责弗吉尼亚大学医学院医学生临床技能的教学，并共同领导临床推理研究合作组织。“我们惊讶地发现，加入人类医生实际上降低了诊断的准确性，尽管提高了效率。这些结果可能意味着我们需要接受如何最好地使用AI的正式培训。”

Chat GPT用于疾病诊断

生成类人响应的聊天机器人（即大型语言模型）越来越受欢迎，它们展示了令人印象深刻的能力，可以记录病史、同理心沟通，甚至解决复杂的医疗案例。然而，目前它们仍然需要人类医生的参与。帕森斯和他的同事们热衷于确定这种高科技工具如何最有效地使用，因此他们在三家领先的医院——弗吉尼亚大学健康系统、斯坦福大学和哈佛大学的贝丝以色列女执事医疗中心——启动了一项随机对照试验。

参与的医生根据基于真实患者护理案例的“临床案例”做出诊断。这些案例研究包括患者的病史、体检和实验室检测结果的详细信息。研究人员随后对结果进行评分，并考察两组医生做出诊断的速度。使用Chat GPT Plus的医生的中位诊断准确率为76.3%，而使用传统方法的医生的准确率为73.7%。Chat GPT Plus组成员总体上稍快一些，平均用时519秒，而传统方法组用时565秒。

研究人员对Chat GPT Plus单独使用的中位诊断准确率超过92%感到惊讶。他们认为这可能反映了研究中使用的提示，建议医生可能受益于如何有效使用提示的培训。或者，医疗机构可以购买预定义的提示，以在临床工作流程和文档中实施。

研究人员还警告说，Chat GPT Plus在现实生活中可能表现不佳，因为在临床推理中涉及许多其他方面，特别是在确定诊断和治疗决策的后续影响方面。他们呼吁进行更多研究，评估大型语言模型在这些领域的表现，并正在进行类似的管理决策研究。

“随着AI在医疗保健中的应用越来越多，了解如何利用这些工具来改善患者护理和医生体验至关重要，”帕森斯说。“这项研究表明，在优化我们与AI在临床环境中的合作方面还有大量工作要做。”

为了进一步评估生成式AI在医疗保健中的输出，这四个研究地点还启动了一个名为ARiSE（AI研究和科学评估）的双海岸AI评估网络。更多信息请访问ARiSE网站。

(全文结束)