马萨诸塞州剑桥,2024年12月10日 —— RTX BBN Technologies 获得了高级研究项目署健康部门(ARPA-H)的合同,支持其“聊天机器人准确性和可靠性评估”(CARE)探索主题。CARE 计划旨在开发先进的工具和技术,用于评估面向患者的医疗聊天机器人,解决在可能影响患者结果的情况下提供可靠健康信息的关键需求。
尽管医疗聊天机器人具有潜力,但显著的局限性威胁到它们的有效性。许多 AI 系统生成的事实不准确或误导性响应可能导致混淆,并对患者构成潜在风险。随着医疗保健的发展,需要一个可扩展的系统来确保任何环境中医疗聊天机器人的性能一致性。这种需求因缺乏标准化而更加紧迫,这继续削弱了信心。
“评估医疗聊天机器人不仅仅是检查答案是否正确;它需要深入了解这些系统如何满足多样化用户的复杂需求,”BBN 首席研究员 Damianos Karakos 博士说。
为了解决这个问题,BBN 将利用其在机器学习、基于语言的信息处理和大型语言模型方面的专业知识,开发“智能聊天机器人监控、评估和诊断”(MEDIC)系统。这个全面的解决方案将作为一个技术框架,用于评估医疗聊天机器人,具备以下核心功能:
- 整合护理人员、患者和医疗专业人员的见解,优化聊天机器人的互动,有效解决他们的关切和期望。
- 检索相关医学文献,验证聊天机器人的响应是否基于证据的数据源。
- 先进的提示工程,从不同的角度创建现实的互动。
- 使用多种评估方法检测聊天机器人输出中缺失或不准确的信息,这些方法采用先进的信息提取和机器学习技术。
“我们的目标是开发一个适应性强的框架,严格评估聊天机器人在现实场景中的性能,重点关注偏见、公平性和生成误导性信息的风险,”Karakos 说。“例如,在孕期护理中,准妈妈们获得准确的饮食指导对于支持胎儿健康至关重要。MEDIC 将评估医疗聊天机器人提供的饮食建议,并将任何含糊不清的响应升级给医疗专业人员进行进一步审查。这一倡议旨在改善各种医疗环境中的 AI 集成护理。”
由 BBN 领导的团队包括约翰斯·霍普金斯大学(Mark Dredze 教授)、约翰斯·霍普金斯大学医学院和霍华德大学医院。这项工作的地点在马萨诸塞州剑桥、华盛顿特区和马里兰州巴尔的摩。
这项研究部分由高级研究项目署健康部门(ARPA-H)资助。本文档中包含的观点和结论是作者的观点,不应解释为美国政府官方政策的表达或暗示。
(全文结束)

