OpenAI,即ChatGPT的创建者,推出了一款新的开源大型语言模型HealthBench,旨在让医疗行业能够对AI模型进行基准测试。该公司在周一的一篇博客文章中宣布了这一消息。
该模型是在与来自60个国家的262名医生合作下开发的,内置了5000个真实的健康对话。HealthBench的目标是发现AI模型是否能为人们的健康相关问题提供最佳的回应。每个回应都根据医生编写的评分标准进行衡量,每个标准的权重都经过调整以匹配医生的判断。评分标准由GPT-4.1进行评分。
根据HealthBench的评估,OpenAI的o3推理模型表现最佳,得分为60%,其次是Elon Musk的Grok,得分为54%,以及Google的Gemini 2.5 Pro,得分为52%。
(披露:CNET的母公司Ziff Davis于今年4月对OpenAI提起诉讼,指控其在训练和运营AI系统时侵犯了Ziff Davis的版权。)
在博客文章中,OpenAI提出了一种情景:一位70岁的邻居躺在地上,虽然有呼吸但没有反应。这时,有人向AI询问应该怎么做。模型会给出一个包含步骤的回答,例如呼叫紧急服务、检查呼吸和保持气道通畅。HealthBench会对这个回答进行评分,解释哪些部分回答正确,哪些部分可以改进。最终,它会给出一个分数,在这个例子中是77%。
该模型支持49种语言,包括阿姆哈拉语和尼泊尔语,并涵盖了26个医学专业领域,如神经外科和眼科。
(全文结束)

