一项新研究测试了AI聊天机器人在临床环境中诊断患者的能力,发现该技术尚不足以胜任这一任务,《金融时报》报道称。
《金融时报》(FT)在一条推文中表示,在研究评估的"80%以上的早期医疗案例"中出现了误诊情况。
这项于4月13日发表在《美国医学会杂志·网络开放》(JAMA Network Open)上的研究,使用"29个标准化临床案例"测试了21个聊天机器人,其摘要解释道。
被测试的聊天机器人中包括前沿模型,如OpenAI的GPT-5、Anthropic的Claude 4.5 Opus、Google的Gemini 3.0(Flash和Pro版本)以及Grok 4。
尽管上传图片提高了模型的准确性,但作者发现AI聊天机器人在从所提供信息中逐步识别疾病的过程中存在困难。
特别是,研究人员观察到,在鉴别诊断方面,AI聊天机器人的失败率超过80%。鉴别诊断是指诊断过程因症状与多种潜在疾病、伤害或状况相匹配而变得复杂的情况。
最终,作者报告称,聊天机器人在后期诊断阶段的表现有所改善,误诊率降至40%以下。最强大的模型在最终诊断中的准确率超过90%。
除了研究结果外,在发表时,公众对AI及相关技术的信心已显著下降,原因包括就业市场动荡以及对数据中心日益增长的争议等。
最初,数据中心被视为区域性问题,但到2025年底,它们对公用事业账单的影响已成为全国性关键问题。正如PBS所报道的,电费飙升,在某些地区,月度成本甚至超过了住房付款。
在X平台上,评论者对研究结果并不感到惊讶。
"下次当某些AI首席执行官大放厥词说AI将取代所有人时,请记住这一点,"一人回复道。
"经过美化的自动补全应用不应诊断医疗案例,"另一人表示。
"人类洞察力仍然是黄金标准,"第三人写道。
【全文结束】

