五角大楼宣布完成了一项由其首席数字和人工智能办公室(CDAO)主导的生成式人工智能(GenAI)试点项目,旨在识别大型语言模型(LLM)在增强军事医疗服务中可能存在的漏洞。该项目由Humane Intelligence通过其众包AI红队保证计划进行,国防医疗管理系统项目执行办公室和国防健康局也参与其中。
CDAO的LLM试点项目专注于识别使用新兴工具进行临床笔记总结和医疗咨询聊天机器人时可能出现的系统弱点和缺陷。国防部表示,超过200人参与了此次红队测试工作,其中包括国防部内的临床提供者和医疗分析师,他们“比较了三种流行的LLM”。
根据新闻稿,该倡议揭示了使用这些LLM增强军事医疗服务时超过800个“潜在漏洞和偏差”。国防部表示:“这项演习将通过开发基准数据集产生可重复和可扩展的输出,这些数据集可用于评估未来供应商和工具是否符合性能预期。此外,这些发现将在塑造国防部关于负责任使用生成式AI(GenAI)的政策和最佳实践中发挥关键作用,最终改善军事医疗服务。”
负责AI部门的负责人马修·约翰逊(Matthew Johnson)也在声明中表示:“这个项目作为生成大量测试数据的关键路径,揭示了需要考虑的领域,并验证了缓解选项,这些都将塑造未来的研发和GenAI系统的保证。”
CDAO自2022年6月开始运营以来,一直致力于测试、扩展和简化国防部对AI能力的采用和使用。该办公室于2023年8月启动了一个名为“任务部队利马”的GenAI特遣部队,以更好地研究如何“以负责任和战略性的方式”使用新兴技术。尽管该部门上个月结束了该特遣部队的任务,但它还创建了一个人工智能快速能力单元,以执行该小组的建议。CDAO表示,该新项目将“领导加速和扩大尖端AI支持工具(包括前沿模型)在整个国防部的部署”。
在周四的公告中,国防部表示,作为其众包AI红队保证计划的一部分进行的试点项目“将是加速CDAO的AI快速能力单元的关键”。
(全文结束)

