越来越多的人在世界各地开始转向ChatGPT寻求医疗建议,尤其是在感到不适或焦虑时,有时甚至代替了看医生。2024年8月,加州大学发布的一项研究发现,患者经常在与医生交谈之前或之后咨询像ChatGPT这样的人工智能模型。同样,悉尼大学在2月份进行的一项调查了超过2,000名成年人的研究报告称,近六成受访者至少向ChatGPT提出过一个高风险的健康问题——这些问题通常需要专业临床意见。
ChatGPT的吸引力显而易见:它是免费的,易于访问,并且可以在几秒钟内提供答案。但这种即时反馈有多安全?这是OpenAI希望通过HealthBench回答的问题。HealthBench是一种新的评估工具,旨在测试人工智能模型在回答健康相关问题时的准确性和可靠性。
HealthBench是在来自60个国家的262名持证医生的帮助下开发的,它通过5,000个真实的医疗对话来评估模型的表现,使用的是由医生编写的评估标准。它模拟了用户与人工智能助手之间的来回聊天,涵盖了从症状检查到确定何时需要紧急护理的各种健康问题。每个AI的回答都根据详细指南进行评估,这些指南规定了一个好的医疗回答应该包含什么、避免什么以及如何传达。OpenAI的GPT-4.1模型用于评分。
加州Center Point Medicine的儿科肺病专家兼临床催眠师Ran D. Anbar博士表示,当人们觉得医疗服务难以获得时,他们转向AI并不令人惊讶。“患者可能会因为对ChatGPT提供的答案满意,或者为了省钱而推迟与医疗保健提供者咨询。”他告诉Observer。
然而,他也警告说,这种便利伴随着严重的风险。“不幸的是,可以预见的是,患者会因为认为ChatGPT的指导足够而延迟寻求适当的医疗治疗,从而受到伤害甚至死亡。”他警告说。
哪个人工智能模型在回答医疗问题方面表现最好?
根据OpenAI的评估,其最新的o3模型在HealthBench上表现最佳,得分为60%。其次是xAI的Grok得分为54%,谷歌的Gemini 2.5 Pro得分为52%。
GPT-3.5 Turbo——即免费版ChatGPT所使用的模型——仅得分为16%。值得注意的是,OpenAI的GPT-4.1 Nano模型在性能上超过了旧的大模型,同时运行成本约为其四分之一,这表明新一代人工智能工具既变得更聪明也更高效。
尽管如此,Anbar博士指出,即使医疗系统仍然负担过重,常常在紧急情况下反应迟缓,像ChatGPT这样的AI工具也是不可靠的。“它提供回答时表现出的确定性可能会误导人,使人感到安心。”他说。
OpenAI在其宣布HealthBench的博客文章中承认了这些局限性,指出其模型在处理模糊或高风险查询时仍可能犯严重错误。在医学领域,即使一个不正确的答案也可能抵消几十个正确答案的影响。鉴于ChatGPT广泛用于健康相关问题,OpenAI的最新保障措施可能是一个进步——但是否足够仍然是一个悬而未决的问题。
(全文结束)

