ChatGPT正成为替代医生——OpenAI正在采取的措施 - AI与医疗健康

ChatGPT正成为替代医生——OpenAI正在采取的措施ChatGPT Is Becoming a Stand-In Doctor—Here’s What OpenAI Is Doing About It

环球医讯 / AI与医疗健康来源：observer.com美国 - 英语2025-05-16 06:13:00 - 阅读时长3分钟 - 1240字

越来越多的人在感到不适或焦虑时转向ChatGPT寻求医疗建议，有时甚至取代了看医生。一项新的工具HealthBench由OpenAI开发，旨在测试ChatGPT提供的健康建议是否安全和准确。

越来越多的人在世界各地开始转向ChatGPT寻求医疗建议，尤其是在感到不适或焦虑时，有时甚至代替了看医生。2024年8月，加州大学发布的一项研究发现，患者经常在与医生交谈之前或之后咨询像ChatGPT这样的人工智能模型。同样，悉尼大学在2月份进行的一项调查了超过2,000名成年人的研究报告称，近六成受访者至少向ChatGPT提出过一个高风险的健康问题——这些问题通常需要专业临床意见。

ChatGPT的吸引力显而易见：它是免费的，易于访问，并且可以在几秒钟内提供答案。但这种即时反馈有多安全？这是OpenAI希望通过HealthBench回答的问题。HealthBench是一种新的评估工具，旨在测试人工智能模型在回答健康相关问题时的准确性和可靠性。

HealthBench是在来自60个国家的262名持证医生的帮助下开发的，它通过5,000个真实的医疗对话来评估模型的表现，使用的是由医生编写的评估标准。它模拟了用户与人工智能助手之间的来回聊天，涵盖了从症状检查到确定何时需要紧急护理的各种健康问题。每个AI的回答都根据详细指南进行评估，这些指南规定了一个好的医疗回答应该包含什么、避免什么以及如何传达。OpenAI的GPT-4.1模型用于评分。

加州Center Point Medicine的儿科肺病专家兼临床催眠师Ran D. Anbar博士表示，当人们觉得医疗服务难以获得时，他们转向AI并不令人惊讶。“患者可能会因为对ChatGPT提供的答案满意，或者为了省钱而推迟与医疗保健提供者咨询。”他告诉Observer。

然而，他也警告说，这种便利伴随着严重的风险。“不幸的是，可以预见的是，患者会因为认为ChatGPT的指导足够而延迟寻求适当的医疗治疗，从而受到伤害甚至死亡。”他警告说。

哪个人工智能模型在回答医疗问题方面表现最好？

根据OpenAI的评估，其最新的o3模型在HealthBench上表现最佳，得分为60%。其次是xAI的Grok得分为54%，谷歌的Gemini 2.5 Pro得分为52%。

GPT-3.5 Turbo——即免费版ChatGPT所使用的模型——仅得分为16%。值得注意的是，OpenAI的GPT-4.1 Nano模型在性能上超过了旧的大模型，同时运行成本约为其四分之一，这表明新一代人工智能工具既变得更聪明也更高效。

尽管如此，Anbar博士指出，即使医疗系统仍然负担过重，常常在紧急情况下反应迟缓，像ChatGPT这样的AI工具也是不可靠的。“它提供回答时表现出的确定性可能会误导人，使人感到安心。”他说。

OpenAI在其宣布HealthBench的博客文章中承认了这些局限性，指出其模型在处理模糊或高风险查询时仍可能犯严重错误。在医学领域，即使一个不正确的答案也可能抵消几十个正确答案的影响。鉴于ChatGPT广泛用于健康相关问题，OpenAI的最新保障措施可能是一个进步——但是否足够仍然是一个悬而未决的问题。

(全文结束)