OpenAI发布HealthBench数据集以测试医疗领域的AIOpenAI Releases HealthBench Dataset to Test AI in Health Care

环球医讯 / AI与医疗健康来源：www.thecardiologyadvisor.com美国 - 英语2025-05-21 22:00:00 - 阅读时长3分钟 - 1143字

OpenAI发布了名为HealthBench的数据集，用于测试AI在医疗领域中的表现。该数据集包含5000个“真实的医疗对话”，并配有详细的评分工具来评估AI的响应。专家认为这是向前迈出的重要一步，但仍需进一步工作以确保安全。

OpenAI发布HealthBench数据集以测试医疗领域的AI

OpenAI发布了大型数据集，以帮助测试人工智能（AI）模型在回答医疗问题方面的表现。

专家称这是向前迈出的重要一步，但也表示需要更多的工作来确保安全性。

这个名为HealthBench的数据集是OpenAI的第一个主要独立医疗项目。它包括5000个“真实的医疗对话”，每个对话都配有详细的评分工具来评估AI的响应，《STAT News》报道。

“作为OpenAI，我们的使命是确保AGI对人类有益，”总部位于旧金山的公司的健康AI团队负责人Karan Singhal说。AGI是人工通用智能的缩写。

“其中一个部分是构建和部署技术，”Singhal说。“另一部分是确保像医疗保健这样的积极应用有一个发展的空间，并且我们在这些环境中做正确的工作，以确保模型的安全性和可靠性。”

该数据集是在262名曾在60个国家工作的医生的帮助下创建的。他们提供了超过57,000条独特的标准来判断AI模型回答医疗问题的能力。

HealthBench旨在解决一个常见问题：公平比较不同的AI模型。

“OpenAI所做的就是以一种可扩展的方式，从一个非常大、信誉良好的品牌提供这种服务，使人们能够非常容易地使用它，”MedStar Health的健康AI研究员Raj Ratwani说。

HealthBench中的5000个示例是通过由医生设计的合成对话生成的。

“我们希望在能够发布数据的好处与使用真实数据的隐私约束之间取得平衡，”Singhal在接受《STAT News》采访时说。

该数据集还包括一组1000个特别难的例子，AI模型在这些例子中表现不佳。OpenAI希望这一组“在未来几个月内为模型改进提供一个值得的目标”，《STAT News》报道。

OpenAI还测试了自己以及其他公司如Google、Meta、Anthropic和xAI的模型。OpenAI的o3模型得分最高，尤其是在沟通质量方面，《STAT News》报道。

但专家表示，模型在上下文意识和完整性等方面表现较差。

一些人警告说，OpenAI在评估自己的模型时可能存在偏见。

“在医疗保健这样涉及生死的敏感背景下，这种程度的不透明是不可接受的，”Hao解释道。

其他人指出，某些响应是由AI本身进行评分的，这可能会导致错误被忽略。

“这可能会隐藏模型和评分者共有的错误，”纽约市西奈山伊坎医学院的人工智能和人类健康部门负责人Girish Nadkarni告诉《STAT News》。

他和其他人呼吁进行更多的审查，以确保模型在不同国家和不同人口群体中都能良好运行。

“HealthBench改进了大规模语言模型在医疗保健评估中的表现，但在支持安全声明之前仍需要子组分析和更广泛的人类审查，”Nadkarni说。

(全文结束)

本文内容由家庭大健康团队所原创或整理，未经授权不得转载、摘编或利用其它方式使用。欢迎分享至朋友圈。
本文仅代表作者观点，不代表本站立场，如有侵权请联系我们删除。

AI内容声明：本页内容撰写过程部分涉及AI（包括且不限于题材，素材，提纲的搜集与整理），请注意甄别。

猜你喜欢

白原医院与Layer Health合作，利用AI自动化临床登记报告
通过AI创新实现儿童语音筛查自动化
从炒作到基础设施：健康AI的大压缩
人工智能工具在急诊科疾病诊断中的应用
通过手机照片评估湿疹严重程度的AI工具
人工智能在患者同意中的演变及其数据驱动的未来
AI和白内障手术帮助达勒姆老人重新雕刻美丽的木制动物
未来五年医疗领域的人工智能：将实现哪些可能？
评估医疗保健领域的人工智能工具
3D打印如何个性化医疗保健

热点资讯

全站热点

全站热文

Copyright © 1998 - 2025 familydoctor.cn All Rights Reserved 家庭医生在线版权所有

家庭医生在线版旗下网站

本网站敬告网民：网站资讯仅供参考，身体若有不适，请及时到医院就诊。

经营许可证编号：粤B2-20050069号 | ICP备案粤ICP备14007806号-2

营业执照 | 广播电视节目制作经营许可证

粤公网安备44010402003489号 | 不良信息举报中心 | 垃圾信息举报中心 | 网络110报警服务

违法和不良信息举报电话：020-37617298，举报邮箱：fw@familydoctor.com.cn

互联网文化经营单位