OpenAI的安全训练团队负责人Saachi Jain在上周四的发布直播中,详细阐述了GPT-5在降低幻觉现象与"缓解欺骗行为"方面的技术突破。她将模型欺骗性定义为:当AI捏造推理过程细节或虚假声称完成特定任务时发生。
Jain指出:"GPT-5的欺骗行为显著低于o3和o4-mini版本"。在OpenAI的内部测试中,GPT-5的幻觉率相较前代模型大幅降低。针对危险场景的响应机制,GPT-5引入"安全补全"技术,通过在安全约束内最大化实用性来处理敏感问题。例如面对烟火剂使用等潜在危险请求时,模型会引导用户查阅专业制造商手册。
HealthBench医疗基准测试显示,GPT-5在包含5000个真实医疗对话场景中的得分为46.2%,显著高于o3模型的31.6%。该评估体系由262名执业医师共同开发,测试涵盖虚构医疗问题到真实病理报告解读案例。某用户案例中,GPT成功将专业乳腺活检报告转化为通俗语言,协助患者决策是否接受放射治疗。
在心理健康支持方面,GPT-5新增了情绪识别与干预机制。OpenAI官方博客8月4日披露,尽管4o模型在识别妄想或情感依赖征兆时存在缺陷,但新版已开发出更精准的情绪压力检测工具。当检测到用户存在心理危机时,模型会主动建议暂停对话并引导至专业医疗资源。
网络安全公司SPLX的红队测试显示,GPT-5仍存在提示词注入漏洞。测试中发现的攻击向量包括自然语言模糊攻击等新型对抗样本,这表明即便经过安全强化,自然语言模型在对抗性场景中依然存在风险。
【全文结束】

