美国食品药品监督管理局(FDA)于6月推出的新人工智能助手“埃尔莎”(Elsa)本意是革新药物审批流程,但实际上却在编造不存在的研究数据,反而增加了人类审查人员的工作量。根据美国有线电视新闻网(CNN)7月23日的报道,该工具在关键任务中并不可靠。
这一失败与特朗普政府对人工智能的公开赞誉形成鲜明对比,凸显了在高风险政府职能中部署未经验证技术的严重风险,这一问题在整个科技行业也普遍存在。
这款人工智能曾高调发布。美国卫生与公众服务部部长小罗伯特·F·肯尼迪(Robert F. Kennedy Jr.)曾宣布:“人工智能革命已经到来。”然而,据FDA员工向CNN透露,埃尔莎歪曲研究数据,并需要持续监督,从而削弱了其原本设计的效率提升目标。
一场被“幻觉”困扰的人工智能革命
FDA局长马蒂·马卡里(Dr. Marty Makary)淡化了内部担忧,他对记者表示:“我尚未听到这些具体担忧,但使用与否是自愿的。如果他们觉得没有价值,就不必使用埃尔莎。”然而,这种态度回避了该工具在提升效率和加速关键审查方面的可靠性核心问题。
根据CNN的报道,来自机构内部的观点更为严峻。一名员工形容该工具对于无法双重验证的任务并不可靠,称其“自信地产生幻觉”。另一位员工则抱怨这一新增负担,表示:“我浪费了很多额外的时间,仅仅是因为我必须保持高度警惕。”
这些额外工作源于埃尔莎的根本局限性。工作人员指出,它无法访问许多相关文件,例如保密的行业提交材料,使其在审查药物安全性和有效性数据的核心科学工作中毫无用处。在测试中面对基本问题时,它给出了错误答案。
该机构的人工智能主管杰里米·沃尔什(Jeremy Walsh)承认了这一技术现实,表示:“埃尔莎与许多大语言模型和生成式人工智能并无不同,它们可能会产生幻觉。”这种人工智能生成自信但完全错误信息的现象,正是当前一代模型的核心缺陷。
这一问题并非FDA定制工具所独有。即使是最先进的商业模型也存在类似问题。例如,OpenAI在其安全数据中披露,其最新的o3和o4-mini模型在某些基准测试中比前代模型更容易编造信息。
研究人员认为,这种现象发生的原因是模型因正确最终答案而受到奖励,因此学会了编造看似合理的中间步骤。当模型无法访问自身先前的推理过程时,这一问题更加严重,迫使它在被问及推理过程时编造复杂的借口。
这一现实促使专家警告称该技术被过早部署。斯坦福大学教授乔纳森·陈(Dr. Jonathan Chen)直言不讳地警告:“目前的情况真的很像西部蛮荒时代。技术发展得太快,以至于难以真正理解它到底是什么。”
他的评价突显了政府中人工智能的承诺与使用未经验证、不可靠系统进行影响公共健康决策之间的巨大鸿沟。
行业高风险失败案例的普遍现象
FDA的困境并非孤例。2025年5月,人工智能公司Anthropic的法律团队不得不道歉,因为其Claude AI在版权诉讼中编造了一个法律引用。该案法官指出:“遗漏引用与人工智能编造引用之间存在天壤之别。”
仅仅一个月前,AI代码编辑器Cursor的用户遭遇了一个支持机器人,该机器人编造了虚假的公司政策,引发了用户强烈反弹,公司联合创始人不得不公开道歉。
这一问题也延伸到了消费产品。Gmail的AI中存在一个漏洞,导致其错误翻译德语电子邮件,造成内容被严重篡改。德国在线媒体T-Online主编弗洛里安·哈姆斯(Florian Harms)表示:“对于严肃媒体的新闻声誉和可信度而言,这种文本篡改是毁灭性的。”这凸显了专业可信度所受到的损害。
这些反复出现的失败促使一些专家警告不要过度依赖这项技术。Sauce Labs的一位分析师在Cursor事件后指出:“仅仅让用户知道‘此回复由人工智能生成’可能不足以恢复用户忠诚。”
这一观点表明,行业正在慢慢认识到,简单的免责声明和透明度措施不足以解决信任和可靠性方面的根本问题。
政府言论与现实之间的鸿沟不断扩大
这一系列高调失误迫使整个行业重新调整策略。一项关于呼叫中心AI的研究发现,它经常给人工代理带来更多工作。分析机构Gartner也逆转了关键预测,现在预计一半的组织将放弃用AI取代人工客服的计划。
新兴的共识倾向于一种混合模式,即人工智能辅助而非取代人类专业知识。这一务实转变承认了当前技术的局限性,并反映了日益增长的理解,即AI错误的成本可能超过自动化的益处。
就在白宫推出其“人工智能行动计划”之际,埃尔莎事件发生了。该计划旨在通过放松监管来加快人工智能发展。这一推动快速、无约束创新的举措与技术不可靠的现实发生冲突。
该计划的重点是削减“官僚繁文缛节”并撤销先前关于人工智能风险管理的命令,这可能会加速类似埃尔莎等工具的部署,尽管已有明确证据显示其缺陷。
专家警告称,在缺乏充分监督的情况下急于部署人工智能是危险的。斯坦福大学研究临床环境中人工智能的乔纳森·陈教授警告说:“目前的情况真的很像西部蛮荒时代。技术发展得太快,以至于难以真正理解它到底是什么。”
他的评价描绘了一个技术进步远超安全协议和监管框架发展的领域。
FDA随后发表声明,承认使用生成式人工智能的挑战。然而,埃尔莎事件成为了一个有力且公开的警告,提醒人们在政府中过早部署人工智能的风险。
【全文结束】

