使用 AWS LLM-as-a-judge 评估医疗生成式 AI 应用
本文介绍通过 AWS Bedrock Knowledge Bases 的 RAG 评估功能,采用 LLM-as-a-judge 方法对放射科报告生成系统进行多维度评估。基于 MIMIC-CXR 数据集和印第安纳大学医院网络数据,构建包含正确性、完整性、有用性、逻辑连贯性和真实性五个核心指标的评估框架,对比分析 Anthropic Claude 3 Haiku 与 Amazon Nova Micro 模型性能,展示医疗 AI 系统优化路径及质量保证机制,为临床场景应用提供可靠技术支撑。该方法通过检索深度分析、异常案例诊断和可视化报告,显著提升医学生成内容的准确性和可信度。
2025-08-21 04:13:44AI与医疗健康