一项新研究测试了AI聊天机器人在临床环境中的诊断能力,发现该技术尚无法胜任这一任务,《金融时报》报道称。
《金融时报》在一条推文中表示,在研究评估的早期医疗病例中,误诊率"超过80%"。
该研究于4月13日发表在《美国医学会杂志网络公开版》上,使用"29个标准化临床案例"测试了21款聊天机器人。
参与测试的聊天机器人包括尖端模型,如OpenAI的GPT-5、Anthropic的Claude 4.5 Opus、Google的Gemini 3.0(Flash和Pro版)以及Grok 4。
尽管上传图像提高了模型的准确性,但研究人员发现,AI聊天机器人在从提供信息中逐步识别病情的过程中表现不佳。
特别是,研究人员观察到,在鉴别诊断方面,AI聊天机器人的失败率超过80%。鉴别诊断是指当症状与多种潜在疾病、损伤或状况匹配,使诊断变得复杂的情况。
最终,作者报告称,在后期诊断阶段,聊天机器人的表现有所改善,误诊率降至40%以下。最强大的模型在最终诊断中的准确率超过90%。
除了研究结果外,在出版时,公众对AI及相关技术的信心已显著下降,原因包括就业市场动荡和数据中心日益引发的争议。
最初,数据中心被视为区域性滋扰,但到2025年底,它们对公用事业费用的影响已成为全国性关键问题。电费飙升,在某些地区,月度费用甚至超过了住房付款,正如PBS所报道的。
在X平台上,评论者对研究结果并不感到惊讶。
"下次当某个AI CEO胡说AI将取代所有人时,请记住这一点,"一位用户回复道。
"华丽的自动补全应用不应该用于诊断医疗病例,"另一位用户表示。
"人类洞察力仍然是黄金标准,"第三位用户写道。
【全文结束】

