AI能否改善医生的诊断？研究得出结论 - AI与医疗健康

AI能否改善医生的诊断？研究得出结论Does AI Improve Doctors’ Diagnoses? Study Finds Out

环球医讯 / AI与医疗健康来源：newsroom.uvahealth.com美国 - 英语2024-11-13 22:00:00 - 阅读时长4分钟 - 1754字

一项新研究发现，使用Chat GPT Plus并不显著提高医生诊断的准确性，但单独使用Chat GPT表现优异，未来仍需更多培训和经验来充分利用其潜力。

人工智能（AI）正在改变我们的世界。但是，它能否改善医生的诊断，超越传统方法？弗吉尼亚大学（UVA）的一项研究表示，目前还不能。

尽管医院已经在使用人工智能（AI）来改善患者护理，但一项新的研究发现，使用Chat GPT Plus并不会显著提高医生诊断的准确性，与使用常规资源相比。这项由UVA Health的安德鲁·S·帕森斯博士（Andrew S. Parsons, MD, MPH）及其同事进行的研究，招募了50位家庭医学、内科和急诊医学的医生来测试Chat GPT Plus。一半的医生被随机分配使用Chat GPT Plus来诊断复杂病例，而另一半则依赖传统的诊断方法，如医学参考网站（例如UpToDate®）和Google。研究人员随后比较了两组的诊断结果，发现两组的准确性相似。

然而，单独使用的Chat GPT的表现优于两组，这表明它在改善患者护理方面仍具有潜力。研究人员得出结论，医生需要更多的培训和经验来利用这一新兴技术。目前，Chat GPT最好用于辅助而非替代人类医生。

“我们的研究表明，AI本身可以是一个有效且强大的诊断工具，”帕森斯说，他负责弗吉尼亚大学医学院医学生的临床技能教学，并共同领导临床推理研究合作组。“我们惊讶地发现，加入人类医生实际上降低了诊断准确性，尽管提高了效率。这些结果可能意味着我们需要正式培训，以了解如何最佳地使用AI。”

Chat GPT用于疾病诊断

生成类人响应的聊天机器人（大型语言模型）越来越受欢迎，它们已经展示了出色的能力，可以记录患者病史、同理心交流甚至解决复杂的医疗案例。但目前，它们仍然需要人类医生的参与。帕森斯和他的同事们热衷于确定这种高科技工具如何最有效地使用，因此他们在三家尖端医院——UVA Health、斯坦福大学和哈佛大学的贝丝以色列女执事医疗中心——启动了一项随机对照试验。

参与的医生根据真实患者护理案例的“临床场景”进行了诊断。这些案例研究包括患者的病史、体格检查和实验室检测结果的详细信息。研究人员随后对结果进行了评分，并考察了两组医生做出诊断的速度。使用Chat GPT Plus的医生的中位诊断准确率为76.3%，而使用传统方法的医生的中位诊断准确率为73.7%。使用Chat GPT Plus的医生整体上稍微更快地做出了诊断——平均用时519秒，而传统方法的医生平均用时565秒。

研究人员对单独使用的Chat GPT Plus表现出色感到惊讶，其诊断准确率的中位数超过92%。他们认为这可能反映了研究中使用的提示词，建议医生可能需要接受关于如何有效使用提示词的培训。或者，医疗机构可以购买预定义的提示词，以在临床工作流程和文档中实施。

研究人员还警告说，在现实生活中，Chat GPT Plus的表现可能会较差，因为许多其他方面的临床推理也会起作用，尤其是在确定诊断和治疗决策的下游影响方面。他们呼吁进行更多研究，评估大型语言模型在这些领域的表现，并正在进行类似的管理决策研究。“随着AI在医疗保健中的应用越来越多，我们必须了解如何利用这些工具来改善患者护理和医生体验，”帕森斯说。“这项研究表明，在优化我们与AI在临床环境中的合作方面，还有大量工作要做。”

继这项开创性工作之后，四个研究地点还启动了一个名为ARiSE（AI Research and Science Evaluation）的双海岸AI评估网络，以进一步评估医疗保健中的生成式AI输出。更多信息请访问ARiSE网站。

研究成果发表

研究人员已在科学期刊《JAMA Network Open》上发表了他们的研究成果。研究团队包括Ethan Goh、Robert Gallo、Jason Hom、Eric Strong、Yingjie Weng、Hannah Kerman、Joséphine A. Cool、Zahir Kanjee、Parsons、Neera Ahuja、Eric Horvitz、Daniel Yang、Arnold Milstein、Andrew P.J. Olson、Adam Rodman和Jonathan H. Chen。这项研究的资金由戈登和贝蒂·摩尔基金会提供。论文中列出了完整的披露和资金来源。

(全文结束)