OpenAI的新数据集评估AI回答医疗问题的能力OpenAI's new dataset evaluates how well AI answers medical questions

环球医讯 / AI与医疗健康来源:www.newsbytesapp.com美国 - 英语2025-05-13 17:20:00 - 阅读时长2分钟 - 632字
OpenAI推出了HealthBench,这是一个全面的数据集,用于评估AI模型在回答医疗相关问题方面的表现。该数据集由来自60个国家的262名医生合作开发,包含5,000个模拟健康对话,并使用GPT-4.1进行评分。
OpenAIHealthBenchAI健康相关问题医疗应用医学专业领域模型评分医疗保健评估医疗紧急情况响应
OpenAI的新数据集评估AI回答医疗问题的能力

OpenAI推出了一项名为HealthBench的综合数据集,旨在评估AI模型在回答健康相关问题方面的表现。

该开源资源得到了详细的评估工具的支持,被誉为AI在医疗应用方面的一大进步。HealthBench是由来自60个国家的262名医生共同开发的,包含了5,000个模拟健康对话。

如何对响应进行评分?

每个AI响应都根据医生设计的指南进行评估,评分标准根据医学判断进行加权。这些响应使用OpenAI开发的高级语言模型GPT-4.1进行评分。这种协作方法确保了数据集的全面性,并反映了全球各地不同的医学观点。

OpenAI的o3模型在HealthBench中超越竞争对手

根据HealthBench的评估,OpenAI的o3推理模型以60%的得分超过了其竞争对手。紧随其后的是Elon Musk的Grok(得分为54%)和Google的Gemini 2.5 Pro(得分为52%)。该数据集支持49种语言,并涵盖了神经学和眼科等26个医学专业领域,使其成为评估不同地区和领域内AI在医疗保健方面表现的多功能工具。

HealthBench的工作示例

OpenAI提供了一个示例,展示了如何使用该数据集来评估AI模型对医疗紧急情况的响应。在这个例子中,AI被问到当发现邻居躺在地上不省人事时应该怎么做。模型建议拨打急救电话、检查呼吸并确保呼吸道畅通。HealthBench对这些响应进行了评估,标记出正确的行动和需要改进的地方,并给出了77%的评分。


(全文结束)

大健康

猜你喜欢

  • NHS健康数据用于AI模型训练引发隐私担忧NHS健康数据用于AI模型训练引发隐私担忧
  • AI可以从心脏扫描中猜测种族类别——这意味着什么以及为什么重要AI可以从心脏扫描中猜测种族类别——这意味着什么以及为什么重要
  • 南非初创公司利用AI阅读X光片并拯救生命南非初创公司利用AI阅读X光片并拯救生命
  • 医疗系统是否应披露使用AI的情况医疗系统是否应披露使用AI的情况
  • OpenAI推出HealthBench,一个用于评估医疗AI模型的数据集OpenAI推出HealthBench,一个用于评估医疗AI模型的数据集
  • 基尔代尔大学数字健康暑期学校揭示爱尔兰医疗保健新愿景基尔代尔大学数字健康暑期学校揭示爱尔兰医疗保健新愿景
  • 将机器学习创新转化为临床实践:从计算机到病床的跨越将机器学习创新转化为临床实践:从计算机到病床的跨越
  • 爱尔兰医疗保健奖迎来24年历史上最重要的一届爱尔兰医疗保健奖迎来24年历史上最重要的一届
  • 新AI工具可通过自拍估算生物年龄和癌症生存率新AI工具可通过自拍估算生物年龄和癌症生存率
  • 人工智能如何改变蜜蜂女士中心医生的工作人工智能如何改变蜜蜂女士中心医生的工作
大健康
大健康

热点资讯

大健康

全站热点

大健康

全站热文

大健康