研究人员和神经科学家正在积极评估人工智能(AI)大型语言模型(LLMs)在大量复杂脑成像数据中寻找模式的预测能力。最近发表在《欧洲放射学》上的一项研究探讨了AI大型语言模型GPT-4与人类放射科医生的表现,结果令人惊讶。
“这是首次尝试评估GPT-4解释实际临床放射学报告的能力,而不是像图像诊断测验这样的设置,”该研究的通讯作者、大阪市立大学医学研究生院的副教授Daiju Ueda及其研究团队成员Yasuhito Mitsuyama、Hiroyuki Tatekawa等人写道。
在人工智能领域,大型语言模型是机器学习模型,特别是深度学习模型,可以执行广泛的自然语言处理(NLP)任务,如生成文本、回答问题、分析文本、翻译、分类文本、归类文本,以及充当对话聊天机器人。大型语言模型的例子包括OpenAI的生成预训练变换器(GPT)、Google的双向编码器表示从变换器(BERT)和Meta AI的鲁棒优化BERT方法(RoBERTa)等。
“大型语言模型如GPT-4在放射学诊断中展示了潜力,”研究人员写道。据研究人员称,缺乏的是使用实际放射学报告评估GPT-4作为放射科医生潜在工具的研究,这些报告的数据通常比基于诊断测验的更结构化数据更为多样和无结构。该团队旨在通过比较GPT-4在使用真实世界临床放射学报告数据时的诊断能力来填补这一空白。
“我们专注于脑肿瘤的MRI报告,因为放射学报告在确定治疗路线(如手术、药物或监测)方面起着关键作用;并且病理结果为脑肿瘤提供了明确的基准,”科学家们写道。
研究团队由四名普通放射科医生和三名经日本放射学会认证的中枢神经系统影像诊断专家组成。大阪市立大学医院和国立大阪南医疗中心的术前脑肿瘤MRI报告由一名普通放射科医生从日语翻译成英语。为了确保翻译质量,一名日常使用英语且有八年经验的董事会认证神经放射科医生验证了翻译的完整性,确保没有数据丢失。
研究人员通过列出头颅MRI检查结果的三种可能的鉴别诊断和最终诊断,并按可能性顺序排列,提示基于GPT-4的ChatGPT,然后提供来自临床实践的影像学检查的真实数据。在医疗保健中,鉴别诊断描述了医生列出可能导致症状的各种可能条件或疾病的过程。例如,脑脓肿是大脑中充满不透明、浓稠、通常是白色液体(脓液)的肿块。根据Medscape,脑脓肿的鉴别诊断可能包括细菌性脑膜炎、脑癌、隐球菌感染、囊尾蚴病(由寄生猪肉绦虫幼虫引起的组织感染)和其他原因。
GPT-4的诊断结果与另一组放射科医生进行了比较,这组医生包括三名普通放射科医生和两名董事会认证的神经放射科医生。利用这种方法,团队评估了人类与机器学习在150份放射学报告上的表现。
结果显示,GPT-4在进行鉴别诊断任务的准确率为94%,显著高于表现最好的人类放射科医生。总体而言,人类放射科医生的准确率要低得多,介于73%到89%之间。GPT-4的最终诊断准确率为73%,而人类放射科医生的准确率介于65%到79%之间。
“本研究评估了基于GPT-4的ChatGPT在使用真实世界临床MRI报告诊断脑肿瘤病例的能力,结果表明其从MRI检查结果解读脑肿瘤的准确性可与放射科医生相媲美,”研究人员报告说。基于这一发现,科学家们得出结论,GPT-4可以作为神经放射学工具的有效第二意见,用于最终诊断,并作为普通放射科医生和住院医师的咨询工具。
(全文结束)

