“我被结果震惊了。”12月4日下午2点05分(EST),弗兰克·兰迪莫尔(Frank Landymore)在《福布斯》网站上写道。这项研究的背景图来自Getty/Futurism。
某天,聊天机器人会成为你的医生吗?这可能比你想象的更有可能。
在最近发表的一项研究中,50名医生被要求通过分析病例报告来诊断医疗状况,其中一些医生被随机分配使用ChatGPT辅助他们的决策过程。
在实验中,参与的医生不仅被评估最终诊断的正确性,还被评估他们解释思维过程的能力。根据这些标准,独自工作的医生平均得分为74%,而与AI聊天机器人合作进行诊断的医生平均得分为76%。
但两组医生都远远不及从未上过医学院的东西:ChatGPT独立行动时,以平均90%的得分碾压了人类医生。该研究发表在《JAMA Network Open》杂志上,尽管规模较小(50名医生仅分析了六个案例),但其结果对AI在医疗领域的角色及人类医生可能存在的偏见具有显著影响。
“我对结果感到震惊,”研究合著者亚当·罗德曼(Adam Rodman)在接受《纽约时报》播客《Hard Fork》采访时说。罗德曼是波士顿贝斯以色列女执事医疗中心的内科专家。“我最初的假设是使用[ChatGPT]的人会是最好的。所以我很惊讶。”
这些病例基于真实的医疗患者,故意设计得非常具有挑战性。尽管如此,ChatGPT仍然以压倒性的优势胜出。根据罗德曼的说法,这既是对AI模型能力的一种肯定,也反映了人类医生的固执。
例如,使用ChatGPT的医生可能对聊天机器人的第二意见感到抗拒,认为它是错误的,并因此加倍坚持自己的初次判断。
另一个可能导致医生落后于技术的因素是他们不熟悉使用AI。但罗德曼反驳了ChatGPT比普通人类医生更称职的观点。“区别在于,整理病例信息的那些人,如果你愿意的话,可以认为他们是提供提示词的专家临床医生,”他在播客中说。“我们以这种方式组织信息。”
换句话说,人类医疗专业人员完成了准确收集和呈现医疗信息的艰巨任务,这是目前AI无法做到的。宣称AI明显优于医生有点像厨师在使用别人的食谱后把所有的功劳都揽到自己身上。
此外,该研究主要旨在测试聊天机器人如何有效帮助医生,结果并不理想,而不是证明AI更优秀。事实上,类似的研究发现ChatGPT在诊断病例方面表现糟糕。
然而,值得注意的是,这项实验是在一年前使用较旧版本的ChatGPT进行的。现在的结果可能会更加令人印象深刻。
“也许AI模型在诊断方面比人类医生更好。但我认为GPT-4 Turbo(本次研究使用的模型)并不是这样,”罗德曼说。“但在某个时候,这将是事实,而且我们正迅速接近那一天。”
(全文结束)

