马萨诸塞州剑桥市,2024年12月10日 —— RTX BBN Technologies 获得了通过其他交易协议(OTA)支持高级卫生研究项目署(ARPA-H)“聊天机器人准确性和可靠性评估”(CARE)探索主题的奖项。CARE 计划开发先进的工具和技术,用于评估患者应用中的医疗聊天机器人,以应对在准确性可能影响患者结果的情况下提供可靠健康信息的关键需求。
尽管医疗聊天机器人具有潜力,但其显著局限性威胁到其有效性。许多 AI 系统生成的事实不准确或误导性响应可能导致混淆并对患者构成潜在风险。随着医疗保健的发展,需要一个可扩展的系统来确保医疗聊天机器人在任何环境中的性能一致性。这一需求因持续缺乏标准化而加剧,这继续削弱了信心。
“评估医疗聊天机器人不仅需要检查答案是否正确;还需要深入理解这些系统如何满足不同用户的复杂需求,” BBN 首席研究员 Damianos Karakos 博士表示。
为了解决这个问题,BBN 将利用其在机器学习、基于语言的信息处理和大型语言模型方面的专业知识,开发监测、评估和诊断智能聊天机器人(MEDIC)系统。这一全面解决方案将作为评估医疗聊天机器人的技术框架,具备以下核心功能:
- 整合护理人员、患者和医疗专业人员的见解,优化聊天机器人的互动,有效解决他们的关切和期望。
- 检索相关医疗文献,以验证聊天机器人的响应与基于证据的数据源。
- 先进的提示工程,从不同的社会人口视角创建现实的互动。
- 使用多种评估方法检测聊天机器人输出中缺失或不准确的信息,这些方法利用先进的信息提取和机器学习技术。
“我们的目标是开发一个适应性强的框架,严格评估聊天机器人在现实场景中的性能,重点关注偏见、公平性和生成误导信息的风险,” Karakos 表示。“例如,在产前护理中,准妈妈们需要获得准确的饮食指导以支持胎儿健康。MEDIC 将评估医疗聊天机器人提供的饮食建议,并将任何含糊不清的响应升级给医疗专业人员进行进一步审查。这一举措旨在改善各种医疗环境中的 AI 集成护理。”
由 BBN 领导的团队包括约翰霍普金斯大学(Mark Dredze 教授)、约翰霍普金斯大学医学院和霍华德大学医院。这项工作将在马萨诸塞州剑桥市、华盛顿特区和马里兰州巴尔的摩进行。
这项研究部分由高级卫生研究项目署(ARPA-H)资助。本文档中包含的观点和结论是作者的观点,不应解释为美国政府的官方政策,无论是明示还是暗示。
(全文结束)

