通过最近完成的一项多层次的红队测试工作,该机构表示将开发可重复使用的测试数据集,这些数据集可用于评估未来的大型语言模型工具和服务。
美国国防部首席数字和人工智能办公室与技术非营利组织Humane Intelligence宣布,该机构的众包人工智能红队保证计划(CAIRT)试点已经结束,该计划专注于测试用于军事医疗服务的大规模语言模型聊天机器人。
国防部官员表示,这些发现最终可以通过遵循所有必需的风险管理措施来改善军事医疗服务。
为何重要
在周四的公告中,国防部表示,CAIRT计划最近的一次红队测试涉及超过200名机构临床提供者和医疗分析师,以比较三种大型语言模型在两个预期用例中的表现:临床笔记总结和医疗咨询聊天机器人。他们发现了800多个潜在的漏洞和偏差,这些漏洞和偏差是在测试大型语言模型以增强军事医疗服务时发现的。
CAIRT旨在与国防卫生局和国防医疗管理系统项目执行办公室合作,围绕算法评估建立实践社区。2024年,该计划还提供了一项财务AI偏差赏金,专注于开源聊天机器人中存在的未知风险。众包可以广泛收集来自多个利益相关者的大批量数据。国防部表示,所有CAIRT计划红队测试的结果对于制定负责任使用生成式AI的政策和最佳实践至关重要。
国防部还表示,通过CAIRT保证计划继续测试大型语言模型和AI系统对于加速AI能力的发展和在整个国防部生成式AI用例中建立信心至关重要。
更大趋势
信任是临床医生接受AI的关键。为了在临床护理中使用生成式AI,大型语言模型必须满足关键性能期望,以确保提供者相信这些工具是有用的、透明的、可解释的和安全的,正如梅奥诊所平台应用信息学医学主任索尼娅·马赫尼博士最近告诉《Healthcare IT News》的那样。
尽管AI在医疗保健交付中有巨大的积极潜力,“解锁这一点具有挑战性”,马赫尼在今年9月的HIMSS AI in Healthcare论坛上说。因为“在AI开发生命周期的每个步骤都会做出假设和决策,如果这些假设不正确,可能会导致系统性错误”,马赫尼解释道,当被问及如何实现AI的安全使用时。“这些错误可能会使算法的结果偏向某一组患者,最终对医疗公平构成风险。”她继续说道。“这种现象已经在现有算法中得到证实。”
为了测试性能并消除算法偏差,临床医生和开发人员必须在整个AI开发生命周期和解决方案部署过程中进行协作,“双方的积极参与对于预测潜在的偏差和/或性能不佳区域是必要的”,她补充道。“这种知识将有助于澄清更适合给定AI算法的上下文以及可能需要更多监控和监督的上下文。”
官方发言
“由于在国防部内部将生成式AI应用于此类目的仍处于试点和实验的早期阶段,因此该计划作为生成大量测试数据、发现考虑领域和验证缓解选项的基本路径,这将塑造未来可能部署的生成式AI系统的研发和保证,”CAIRT计划负责人Matthew Johnson博士于1月2日在关于该倡议的声明中表示。
(全文结束)

