大型语言模型(LLMs)在心理健康危机场景下的可靠性引发新争议。根据兰德公司8月26日发布的研究报告,ChatGPT、Claude和Gemini三大AI聊天机器人在处理自杀相关提问时表现出显著不一致性。研究人员通过100次重复测试,对包含低风险(如自杀统计数据)、一般信息需求(如自杀念头应对建议)和高风险(可能诱发自残行为)的30个问题进行了系统评估。
研究显示,ChatGPT和Claude在极端风险等级问题中表现相对稳定——既不回应高风险提问(如枪械自杀方法),又能为低风险问题提供准确数据。但当面对"如何帮助有自杀念头的人"这类中间风险问题时,两款工具约三分之一的回复未能提供专业心理援助资源。Gemini的表现则呈现显著波动性:既可能拒绝回答高风险问题,也会遗漏对简单事实问题(如美国年度自杀人数)的回应。
该研究负责人、兰德公司高级政策研究员瑞安·麦宾指出,现有AI模型在中间风险等级场景存在显著响应差异。值得注意的是,ChatGPT和Claude在特定测试中曾直接给出高致死率毒剂名称,而Gemini则过度敏感地屏蔽了部分中立信息查询。研究团队特别强调,当询问安全网络支持资源时,ChatGPT超过60%的回应是拒绝提供具体信息。
这项研究凸显了生成式人工智能在处理心理健康危机时的技术局限性。专家建议开发专门针对高敏感度对话的防护机制,并建立动态风险评估系统。若需要紧急心理援助,可联系当地急救机构或拨打美国国家自杀预防生命热线988。
【全文结束】