OpenAI推出HealthBench，一个用于评估医疗AI模型的数据集OpenAI Launches HealthBench, a Dataset That Benchmarks Healthcare AI Models

环球医讯 / AI与医疗健康来源：www.cnet.com美国 - 英语2025-05-13 05:00:00 - 阅读时长2分钟 - 625字

OpenAI推出了一个新的开源大型语言模型HealthBench，旨在帮助医疗行业评估AI模型在处理健康相关问题时的表现。该模型由来自60个国家的262名医生共同开发，内置了5000个真实的健康对话，并使用GPT-4.1进行评分。

OpenAI推出HealthBench，一个用于评估医疗AI模型的数据集

OpenAI，即ChatGPT的创建者，推出了一款新的开源大型语言模型HealthBench，旨在让医疗行业能够对AI模型进行基准测试。该公司在周一的一篇博客文章中宣布了这一消息。

该模型是在与来自60个国家的262名医生合作下开发的，内置了5000个真实的健康对话。HealthBench的目标是发现AI模型是否能为人们的健康相关问题提供最佳的回应。每个回应都根据医生编写的评分标准进行衡量，每个标准的权重都经过调整以匹配医生的判断。评分标准由GPT-4.1进行评分。

根据HealthBench的评估，OpenAI的o3推理模型表现最佳，得分为60%，其次是Elon Musk的Grok，得分为54%，以及Google的Gemini 2.5 Pro，得分为52%。

（披露：CNET的母公司Ziff Davis于今年4月对OpenAI提起诉讼，指控其在训练和运营AI系统时侵犯了Ziff Davis的版权。）

在博客文章中，OpenAI提出了一种情景：一位70岁的邻居躺在地上，虽然有呼吸但没有反应。这时，有人向AI询问应该怎么做。模型会给出一个包含步骤的回答，例如呼叫紧急服务、检查呼吸和保持气道通畅。HealthBench会对这个回答进行评分，解释哪些部分回答正确，哪些部分可以改进。最终，它会给出一个分数，在这个例子中是77%。

该模型支持49种语言，包括阿姆哈拉语和尼泊尔语，并涵盖了26个医学专业领域，如神经外科和眼科。

(全文结束)

本文内容由家庭大健康团队所原创或整理，未经授权不得转载、摘编或利用其它方式使用。欢迎分享至朋友圈。
本文仅代表作者观点，不代表本站立场，如有侵权请联系我们删除。

AI内容声明：本页内容撰写过程部分涉及AI（包括且不限于题材，素材，提纲的搜集与整理），请注意甄别。

猜你喜欢

AI驱动的临床支持工具在缓解医生职业倦怠和工作流程挑战方面展现潜力
减肥药物大比拼：Zepbound 减重效果比 Wegovy 高近50%
医疗系统是否应披露使用AI的情况
生活成本调整：心理健康治疗师短缺的一个原因
AI模型分析社交媒体帖子以检测抑郁迹象
沉默变歌声：瘫痪十年的男子用AI为女儿唱歌
纽卡斯尔团队利用AI技术生成心脏3D图像以诊断冠心病
将机器学习创新转化为临床实践：从计算机到病床的跨越
特拉华大学运动学研究员探索被忽视的激素如何影响女性心脏健康
英国人被建议丢弃三种“有毒”浴室用品以维护健康

热点资讯

全站热点

全站热文