一个诊断决策支持系统(DDSS)在诊断疾病方面优于大型语言模型(如ChatGPT),最近发表在《JAMA Network Open》上的一项研究表明。
“这些系统可以增强和扩展临床医生的诊断能力,回忆起医生在紧张时刻可能忘记的信息,并且不受人类推理常见缺陷的影响,”马萨诸塞州总医院布里格姆实验室计算机科学研究员Mitchell J. Feldman博士在一份新闻稿中表示。“现在我们认为,将现有的诊断系统的强大解释能力与大型语言模型(LLM)的语言能力结合起来,将实现更好的自动诊断决策支持和患者结果。”
Feldman及其同事比较了他们的名为DXplain的DDSS与Google Gemini和ChatGPT在几十个涵盖种族、民族、年龄和性别类别的患者病例中的诊断潜力。每个系统都提出了潜在的诊断,并使用和不使用实验室数据进行了测试。
研究人员发现,在有实验室检测结果的情况下,DXplain、Gemini和ChatGPT分别正确列出了36个病例中72%、58%和64%的正确诊断。
在没有实验室检测结果的情况下,DXplain列出的正确诊断率为56%,高于Gemini(39%)或ChatGPT(42%),但这一差异没有统计学意义。
Healio采访了Feldman,以了解他们进行这项研究的原因、研究结果的意义以及更多相关信息。
Healio:是什么促使您进行这项分析?
Feldman: 在对LLM的所有兴趣中,很容易忘记第一个成功用于医学领域的人工智能系统是专家系统。DXplain是其中之一,它是在1980年代由马萨诸塞州总医院布里格姆实验室计算机科学开发的独立程序,后来发展成为基于网络的应用程序和基于云的鉴别诊断引擎。LLM尚未与传统DDSS在未公开的临床病例上进行比较。我们试图比较两种广泛使用的LLM(ChatGPT和Gemini)与DXplain的性能。我们使用了三个不同学术医疗中心基于实际患者开发的36个未公开病例进行了测试,最终诊断已知。
Healio:您对研究结果有何看法?有什么令人惊讶、预期或值得注意的地方吗?
Feldman: 我们对LLM的表现感到惊讶,考虑到它们不是为医学领域设计的,而且仅存在了几年。有趣的是,当ChatGPT和Gemini未列出病例诊断时,DXplain在其鉴别诊断中列出该诊断的情况比两者多(ChatGPT为7/12例或58%;Gemini为9/14例或64%),并且每个LLM在DXplain未列出诊断的情况下,列出该诊断的情况为4/9或44%。
Healio:这些数据对临床医生和一般使用AI进行诊断有什么影响?
Feldman: 我们的研究结果表明,结合LLM的解析和说明性语言能力与传统DDSS的确定性和解释能力的混合方法可能会产生协同效益。
Healio:关于DDSS和LLM相互补充的研究未来会如何发展?
Feldman: 我们正在构建一个模拟这种混合方法的系统,并希望测试一个面向临床医生的版本和一个面向患者的版本。
Healio:还有什么其他要补充或强调的吗?
Feldman: 如果临床医生没有想到诊断,那么就无法做出诊断。能够使用诊断决策支持工具有助于扩大诊断范围并改善患者护理。另一个相关点是,DXplain所需的计算资源远少于LLM(几个数量级),因此对生态系统更有利。
(全文结束)