近期的一项研究比较了使用人工智能(AI)资源的医生与仅使用传统资源的医生在诊断方面的表现。
来自明尼苏达大学医学院、斯坦福大学、贝斯以色列女执事医疗中心和弗吉尼亚大学的研究人员分析了GPT-4(一种人工智能大型语言模型系统)作为辅助工具在帮助医生诊断方面的有效性。该研究发表在《JAMA Network Open》上,结果显示,医生使用GPT-4作为诊断辅助工具并没有显著提高临床推理能力,而那些仅依赖传统资源(如UpToDate和Google)的医生则没有这种优势。
“人工智能领域正在迅速扩展,影响着我们的生活,无论是在医学内外。重要的是,我们要研究这些工具,了解如何最好地利用它们来改善我们提供的护理以及提供护理的体验。”明尼苏达大学医学院教授兼M Health Fairview医院医生安德鲁·奥尔森博士(Andrew Olson, M.D.)表示。“这项研究表明,在临床实践中,医患合作还有进一步改进的空间。”
该研究分析了50名持有美国执业医师执照的医生,涵盖家庭医学、内科和急诊医学领域。使用AI资源的医生组每例病例的平均诊断推理得分为76%,而仅使用传统资源的医生组得分为74%。AI组平均每例病例花费时间为519秒,而传统资源组为565秒。
研究人员得出结论,使用GPT-4并没有显著提高医生的诊断推理能力。然而,独立来看,该语言模型的表现超过了使用传统在线诊断资源的医生和受该程序辅助的医生。这些发现可能证明了进一步研究的必要性,以了解医生应如何接受培训以更好地使用这些工具。
独立测试中,语言模型的表现优于两个医生组,这表明需要进行培训和发展,以充分发挥医患合作在临床实践中的潜力。为此,研究背后的四所机构宣布合作建立一个跨海岸的人工智能评估网络(ARiSE),旨在进一步评估生成式AI在医疗保健中的输出。
(全文结束)

