Lavita AI 推出医疗基准测试,推动长篇医疗问答的发展Lavita AI Introduces Medical Benchmark for Advancing Long-Form Medical Question Answering with Open Models and Expert-Annotated Datasets

环球医讯 / AI与医疗健康来源:www.marktechpost.com美国 - 英语2024-12-09 23:28:00 - 阅读时长4分钟 - 1785字
Lavita AI 与达特茅斯希区柯克医疗中心及达特茅斯学院的研究团队推出了一项公开可访问的基准测试,旨在全面评估长篇医疗问答系统,包括1,298个由医疗专业人士标注的真实消费者医疗问题,涵盖六个性能指标。
LavitaAI医疗基准测试长篇医疗问答医疗保健大型语言模型评估框架开源模型闭源模型医疗QA系统
Lavita AI 推出医疗基准测试,推动长篇医疗问答的发展

医疗问答(QA)系统在现代医疗保健中至关重要,为医疗从业者和公众提供了重要的工具。长篇QA系统与简单模型显著不同,通过提供详细解释反映现实世界的临床场景复杂性。这些系统必须准确解读具有细微差别的问题,通常包含不完整或模糊的信息,并生成可靠、深入的答案。随着对AI模型进行健康相关查询的依赖日益增加,对有效长篇QA系统的需求也在增长。这些系统提高了医疗保健的可及性,并为改进AI在决策和患者互动方面的能力提供了途径。

尽管长篇QA系统具有潜力,但一个主要问题是缺乏评估大型语言模型(LLMs)生成长篇答案的基准。现有的基准通常局限于自动评分系统和选择题格式,无法反映真实世界临床环境的复杂性。此外,许多基准是闭源的,缺乏医学专家的注释。这种透明度和可访问性的缺乏阻碍了开发能够有效处理复杂医疗查询的强大QA系统的进展。一些现有数据集被发现包含错误、过时信息或与训练数据重叠,进一步削弱了其用于可靠评估的实用性。

各种方法和工具已被用于解决这些差距,但它们存在局限性。自动评估指标和策划的选择题数据集(如MedRedQA和HealthSearchQA)提供了基线评估,但未能涵盖长篇答案的更广泛背景。因此,缺乏多样化、高质量的数据集和明确的评估框架导致了长篇QA系统的次优发展。

Lavita AI、达特茅斯希区柯克医疗中心和达特茅斯学院的研究团队引入了一个公开可访问的基准测试,旨在全面评估长篇医疗QA系统。该基准包括超过1,298个由医疗专业人士标注的真实消费者医疗问题。这一举措纳入了多种性能标准,如正确性、有用性、推理能力、有害性、效率和偏见,以评估开放源码和闭源模型的能力。基准确保了数据集的多样性和高质量,包括来自人类专家的注释,并利用先进的聚类技术。研究人员还使用GPT-4和其他大型语言模型进行语义去重和问题策划,从而生成一个强大的模型评估资源。

该基准的创建涉及多阶段方法。研究人员从Lavita Medical AI Assist收集了超过4,271个用户查询,涵盖了1,693个对话,经过过滤和去重后生成了1,298个高质量的医疗问题。通过语义相似性分析,减少了冗余并确保数据集代表广泛的场景。查询被分为三个难度级别:基础、中级和高级,基于问题的复杂性和回答所需的专业知识。研究人员随后创建了批注批次,每个批次包含100个问题,由各种模型生成答案,供人类专家进行配对评估。

基准测试的结果揭示了不同大型语言模型性能的见解。小型模型如AlpaCare-13B在大多数标准上优于其他模型,如BioMistral-7B。令人惊讶的是,最先进的开放模型Llama-3.1-405B-Instruct在所有指标上都超过了商业化的GPT-4o,包括正确性、效率和推理能力。这些发现挑战了封闭、特定领域的模型天生优于开放、通用模型的观点。此外,结果表明,专门的临床模型Meditron3-70B并未显著超越其基础模型Llama-3.1-70B-Instruct,引发了关于特定领域微调附加价值的疑问。

Lavita AI研究的一些关键结论如下:

  • 数据集包括1,298个精心策划的医疗问题,按基础、中级和高级分类,以测试医疗QA系统的各个方面。
  • 基准测试评估模型的六个标准:正确性、有用性、推理能力、有害性、效率和偏见。
  • Llama-3.1-405B-Instruct的表现优于GPT-4o,而AlpaCare-13B的表现优于BioMistral-7B。
  • Meditron3-70B未显示出显著优于其通用基础模型Llama-3.1-70B-Instruct的优势。
  • 开放模型展示了与闭源系统相当甚至更优的性能,表明开源解决方案可以解决医疗保健中的隐私和透明度问题。
  • 基准测试的开放性质和使用人类注释提供了未来医疗QA发展的可扩展和透明基础。

总之,这项研究通过引入由专家标注的1,298个真实医疗问题的数据集,并在六个性能指标上进行评估,解决了长篇医疗QA缺乏强大基准的问题。结果显示,开放模型如Llama-3.1-405B-Instruct在多个指标上均优于商业化GPT-4o。专门模型如Meditron3-70B并未显著超越通用模型,这表明训练良好的开放模型足以应对医疗QA任务。这些发现强调了开源解决方案在隐私意识和透明医疗AI中的可行性。


(全文结束)

大健康

猜你喜欢

  • Carta Healthcare收购Realyze Intelligence,加速肿瘤学研究和临床试验Carta Healthcare收购Realyze Intelligence,加速肿瘤学研究和临床试验
  • 人工智能助力阿尔茨海默病早期预警人工智能助力阿尔茨海默病早期预警
  • CipherHealth 荣获《现代医疗》2024年度最佳商业奖CipherHealth 荣获《现代医疗》2024年度最佳商业奖
  • Corewell Health采用新AI技术以提供更好的患者护理Corewell Health采用新AI技术以提供更好的患者护理
  • AI如何弥合循证护理的差距AI如何弥合循证护理的差距
  • 2025年报告:AI是医疗保健行业面临的最大技术风险2025年报告:AI是医疗保健行业面临的最大技术风险
  • 2024年十大最热门博客文章2024年十大最热门博客文章
  • Bacancy 推出 MedPreGPT:一款用于准确医疗处方的人工智能工具Bacancy 推出 MedPreGPT:一款用于准确医疗处方的人工智能工具
  • 抗菌添加剂市场预计到2033年将达到208亿美元,由卫生和安全解决方案需求推动抗菌添加剂市场预计到2033年将达到208亿美元,由卫生和安全解决方案需求推动
  • 应激模型微生物应激模型微生物
大健康
大健康

热点资讯

大健康

全站热点

大健康

全站热文

大健康