尽管人工智能有潜力改善和变革医疗保健,但医生们暂时还不太可能将决策权交给聊天机器人。波士顿贝斯以色列女执事医疗中心(BIDMC)的医师科学家们研究了一个人工智能聊天机器人程序处理医疗数据和展示临床推理的能力,与完成相同任务的临床医生进行了对比。该研究结果发表在《JAMA内科学》杂志的一封研究信中,显示大型语言模型ChatGPT-4可以像人类一样做出临床诊断,在某些情况下甚至更好,但在临床推理的准确性上,聊天机器人出现错误的情况更多。
“这一发现强调了人工智能最有可能作为工具来增强而非替代人类的推理过程。”BIDMC博客中写道。
BIDMC的研究人员招募了21名主治医生和18名住院医生,分别完成了20个临床案例中的四个连续诊断推理阶段。聊天机器人接受了相同的指令,并运行了所有20个临床案例。为了评估答案,研究人员使用了一种经过验证的评估临床推理的工具——修订版IDEA以及其他几个指标。
研究发现,ChatGPT-4在修订版IDEA评估中得分最高,大型语言模型的中位数得分为10分(满分10分),主治医生为9分,住院医生为8分。然而,研究人员观察到,诊断准确性和正确的临床推理更为接近。研究发现,聊天机器人在答案中出现错误推理的情况显著多于住院医生。
(全文结束)

