OpenAI的新数据集评估AI回答医疗问题的能力OpenAI's new dataset evaluates how well AI answers medical questions

环球医讯 / AI与医疗健康来源：www.newsbytesapp.com美国 - 英语2025-05-13 17:20:00 - 阅读时长2分钟 - 632字

OpenAI推出了HealthBench，这是一个全面的数据集，用于评估AI模型在回答医疗相关问题方面的表现。该数据集由来自60个国家的262名医生合作开发，包含5,000个模拟健康对话，并使用GPT-4.1进行评分。

OpenAI的新数据集评估AI回答医疗问题的能力

OpenAI推出了一项名为HealthBench的综合数据集，旨在评估AI模型在回答健康相关问题方面的表现。

该开源资源得到了详细的评估工具的支持，被誉为AI在医疗应用方面的一大进步。HealthBench是由来自60个国家的262名医生共同开发的，包含了5,000个模拟健康对话。

如何对响应进行评分？

每个AI响应都根据医生设计的指南进行评估，评分标准根据医学判断进行加权。这些响应使用OpenAI开发的高级语言模型GPT-4.1进行评分。这种协作方法确保了数据集的全面性，并反映了全球各地不同的医学观点。

OpenAI的o3模型在HealthBench中超越竞争对手

根据HealthBench的评估，OpenAI的o3推理模型以60%的得分超过了其竞争对手。紧随其后的是Elon Musk的Grok（得分为54%）和Google的Gemini 2.5 Pro（得分为52%）。该数据集支持49种语言，并涵盖了神经学和眼科等26个医学专业领域，使其成为评估不同地区和领域内AI在医疗保健方面表现的多功能工具。

HealthBench的工作示例

OpenAI提供了一个示例，展示了如何使用该数据集来评估AI模型对医疗紧急情况的响应。在这个例子中，AI被问到当发现邻居躺在地上不省人事时应该怎么做。模型建议拨打急救电话、检查呼吸并确保呼吸道畅通。HealthBench对这些响应进行了评估，标记出正确的行动和需要改进的地方，并给出了77%的评分。

(全文结束)

本文内容由家庭大健康团队所原创或整理，未经授权不得转载、摘编或利用其它方式使用。欢迎分享至朋友圈。
本文仅代表作者观点，不代表本站立场，如有侵权请联系我们删除。

AI内容声明：本页内容撰写过程部分涉及AI（包括且不限于题材，素材，提纲的搜集与整理），请注意甄别。

猜你喜欢

英国国家医疗服务体系的人工智能预测模型
基尔代尔大学数字健康暑期学校揭示爱尔兰医疗保健新愿景
战争催生医疗创新浪潮
AI可以从心脏扫描中猜测种族类别——这意味着什么以及为什么重要
医疗系统是否应披露使用AI的情况
将机器学习创新转化为临床实践：从计算机到病床的跨越
配备AI的医疗设备需要前瞻性的专利策略
南非初创公司利用AI阅读X光片并拯救生命
新AI工具可通过自拍估算生物年龄和癌症生存率
AI赋能的OCT-拉曼光谱加速乳腺癌手术

热点资讯

全站热点

全站热文