ChatGPT 能否有一天成为你的医生?这看起来比你想象的更有可能。
在最近发表的一项研究中,50名医生被要求通过检查病历报告来诊断医疗状况,其中一些医生被随机分配使用 ChatGPT 来辅助他们的决策过程。
实验期间,参与的医生不仅被评估最终诊断的准确性,还要评估他们解释思考过程的能力。根据这些标准,独自工作的医生平均得分为74%,而与 AI 聊天机器人合作进行诊断的医生得分平均为76%。
但两组医生的表现都远远不及从未上过医学院的东西:ChatGPT 单独行动时,其平均得分高达90%。这项研究发表在《JAMA Network Open》杂志上,尽管规模较小(50名医生仅审查了六个案例),但仍然具有重要的意义,揭示了AI在医疗领域的潜在角色,以及人类医生可能存在的偏见。
“我对结果感到震惊,”该研究的合著者、波士顿贝斯以色列女执事医疗中心的内科专家亚当·罗德曼在接受《纽约时报》播客《Hard Fork》采访时说,“我原本假设使用 ChatGPT 的人会是最好的。所以这个结果让我很惊讶。”
这些案例基于真实的医疗患者,故意设计得非常具有挑战性。尽管如此,ChatGPT 还是取得了压倒性的胜利。罗德曼认为,这既是对 AI 模型能力的一种证明,也是对人类医生固执己见的一种反映。例如,使用 ChatGPT 的医生可能会对聊天机器人的第二意见感到抵触,认为它是错误的,并坚持自己的初步判断。
另一个可能导致医生落后于技术的因素是他们不熟悉使用这种工具。然而,罗德曼反驳了 ChatGPT 比普通人类医生更称职的观点。“不同之处在于,整理这些案例信息的人,即编写提示的人,都是经验丰富的临床医生,”他在播客中说,“我们以特定的方式组织这些信息。”
换句话说,人类医疗专业人士做了所有艰苦的工作,准确地收集和呈现医疗信息,这是目前 AI 无法做到的。宣称 AI 明显胜过医生有点像厨师用别人的食谱做出美味佳肴却全盘归功于自己。
此外,这项研究主要是为了测试聊天机器人如何有效帮助医生,结果并不理想,并不是为了证明 AI 更优秀。事实上,类似的其他研究表明,ChatGPT 在诊断病例方面表现得很糟糕。
不过,值得注意的是,这项实验是在一年前使用较旧版本的 ChatGPT 进行的。现在的结果可能会更加令人印象深刻。“也许 AI 模型在诊断方面比人类医生更好,但我认为 GPT-4 Turbo 并不是这种情况,”罗德曼说,“但在某个时候这将成为现实,而且我们正迅速接近这一天。”
(全文结束)