政府宣布大幅扩展人工智能在公共部门的应用,标志着一个大胆的前进方向。未来五年内,AI的应用将增加20倍,涵盖从识别道路坑洼到个性化教学等多个方面。尽管这表明了对AI潜力的欢迎态度,但也强调了创新与责任之间的平衡至关重要。
作为深入研究评估和缓解使用基于大型语言模型(LLMs)的AI系统(如ChatGPT)局限性的研究人员,尤其是在涉及私人数据和弱势群体的敏感领域(如医疗和法律),我认为确保这些技术既有效又符合伦理至关重要。这是我们RAi UK Keystone项目的目标,该项目旨在解决LLMs的社会技术局限性,汇集了11位具有强大技术背景以及负责任创新领域专业知识的共同研究者。
我们的研究表明,在多种任务和应用场景中,对生成输出的有效性和适当性的评估往往是不系统的,甚至在许多情况下不适合评估语言生成的质量。研究还显示,LLMs在捕捉简单的时间关系(例如时间顺序)方面存在显著局限性。想象一下,基于LLM的法庭案件总结系统可能会把事件的顺序搞错,或无法捕捉医疗记录或治疗会议中的事件顺序。我们还发现了推理方面的重大不足,即使是最新的模型(如GPT-4)也难以区分不同类型的推理(例如演绎推理与溯因推理)。此外,通过“思维链”推理添加解释往往阻碍而非帮助评估。这有严重的后果;例如,在无法信任支持证据的情况下开具药物或其他医疗干预措施。最近,一位律师在不知情的情况下提交了伪造的AI生成证据,现在正面临相应的后果。
虽然在公共服务中应用AI可能确实会带来前所未有的机会和潜在益处,但仍需投入大量努力进行严格的技术评估及其在不同情境下的影响。此外,这种评估不仅应基于输出的适用性,还应建立在问责制、透明度和公平性的监管框架之上。值得注意的是,像我们这样的学术机构和项目在其中扮演着重要角色,因为它们是由公共利益而非公司利润驱动和设计的。只有当我们有足够的证据证明AI对公众的实际好处,并能说服公众这一点时,才能确保AI成为一股善的力量,增强公共服务的同时保护公众利益。
(全文结束)

