OpenAI发布了大型数据集,以帮助测试人工智能(AI)模型在回答医疗问题方面的表现。
专家称这是向前迈出的重要一步,但也表示需要更多的工作来确保安全性。
这个名为HealthBench的数据集是OpenAI的第一个主要独立医疗项目。它包括5000个“真实的医疗对话”,每个对话都配有详细的评分工具来评估AI的响应,《STAT News》报道。
“作为OpenAI,我们的使命是确保AGI对人类有益,”总部位于旧金山的公司的健康AI团队负责人Karan Singhal说。AGI是人工通用智能的缩写。
“其中一个部分是构建和部署技术,”Singhal说。“另一部分是确保像医疗保健这样的积极应用有一个发展的空间,并且我们在这些环境中做正确的工作,以确保模型的安全性和可靠性。”
该数据集是在262名曾在60个国家工作的医生的帮助下创建的。他们提供了超过57,000条独特的标准来判断AI模型回答医疗问题的能力。
HealthBench旨在解决一个常见问题:公平比较不同的AI模型。
“OpenAI所做的就是以一种可扩展的方式,从一个非常大、信誉良好的品牌提供这种服务,使人们能够非常容易地使用它,”MedStar Health的健康AI研究员Raj Ratwani说。
HealthBench中的5000个示例是通过由医生设计的合成对话生成的。
“我们希望在能够发布数据的好处与使用真实数据的隐私约束之间取得平衡,”Singhal在接受《STAT News》采访时说。
该数据集还包括一组1000个特别难的例子,AI模型在这些例子中表现不佳。OpenAI希望这一组“在未来几个月内为模型改进提供一个值得的目标”,《STAT News》报道。
OpenAI还测试了自己以及其他公司如Google、Meta、Anthropic和xAI的模型。OpenAI的o3模型得分最高,尤其是在沟通质量方面,《STAT News》报道。
但专家表示,模型在上下文意识和完整性等方面表现较差。
一些人警告说,OpenAI在评估自己的模型时可能存在偏见。
“在医疗保健这样涉及生死的敏感背景下,这种程度的不透明是不可接受的,”Hao解释道。
其他人指出,某些响应是由AI本身进行评分的,这可能会导致错误被忽略。
“这可能会隐藏模型和评分者共有的错误,”纽约市西奈山伊坎医学院的人工智能和人类健康部门负责人Girish Nadkarni告诉《STAT News》。
他和其他人呼吁进行更多的审查,以确保模型在不同国家和不同人口群体中都能良好运行。
“HealthBench改进了大规模语言模型在医疗保健评估中的表现,但在支持安全声明之前仍需要子组分析和更广泛的人类审查,”Nadkarni说。
(全文结束)

