人工智能聊天机器人未能改善医疗决策
最新研究发现,尽管大语言模型在医学执照考试中表现优异,但在辅助公众实际医疗决策时效果显著不足;英国1298名参与者使用GPT-4o等三种AI聊天机器人识别疾病(如普通感冒、贫血或胆结石)并选择行动方案(如呼叫救护车或全科医生)时,疾病识别准确率低于34.5%,正确决策率不足44.2%,与使用常规网络搜索的对照组无差异;研究指出当前大语言模型因用户交互中信息不完整及模型误导性输出等问题,尚未达到直接用于公共医疗建议的安全标准,未来工具需针对真实用户场景优化设计。(152字)

