ChatGPT正成为替代医生——OpenAI正在采取的措施ChatGPT Is Becoming a Stand-In Doctor—Here’s What OpenAI Is Doing About It

环球医讯 / AI与医疗健康来源:observer.com美国 - 英语2025-05-16 06:13:00 - 阅读时长3分钟 - 1240字
越来越多的人在感到不适或焦虑时转向ChatGPT寻求医疗建议,有时甚至取代了看医生。一项新的工具HealthBench由OpenAI开发,旨在测试ChatGPT提供的健康建议是否安全和准确。
ChatGPT健康咨询医疗建议HealthBench人工智能模型医疗准确性医疗风险OpenAI保障措施
ChatGPT正成为替代医生——OpenAI正在采取的措施

越来越多的人在世界各地开始转向ChatGPT寻求医疗建议,尤其是在感到不适或焦虑时,有时甚至代替了看医生。2024年8月,加州大学发布的一项研究发现,患者经常在与医生交谈之前或之后咨询像ChatGPT这样的人工智能模型。同样,悉尼大学在2月份进行的一项调查了超过2,000名成年人的研究报告称,近六成受访者至少向ChatGPT提出过一个高风险的健康问题——这些问题通常需要专业临床意见。

ChatGPT的吸引力显而易见:它是免费的,易于访问,并且可以在几秒钟内提供答案。但这种即时反馈有多安全?这是OpenAI希望通过HealthBench回答的问题。HealthBench是一种新的评估工具,旨在测试人工智能模型在回答健康相关问题时的准确性和可靠性。

HealthBench是在来自60个国家的262名持证医生的帮助下开发的,它通过5,000个真实的医疗对话来评估模型的表现,使用的是由医生编写的评估标准。它模拟了用户与人工智能助手之间的来回聊天,涵盖了从症状检查到确定何时需要紧急护理的各种健康问题。每个AI的回答都根据详细指南进行评估,这些指南规定了一个好的医疗回答应该包含什么、避免什么以及如何传达。OpenAI的GPT-4.1模型用于评分。

加州Center Point Medicine的儿科肺病专家兼临床催眠师Ran D. Anbar博士表示,当人们觉得医疗服务难以获得时,他们转向AI并不令人惊讶。“患者可能会因为对ChatGPT提供的答案满意,或者为了省钱而推迟与医疗保健提供者咨询。”他告诉Observer。

然而,他也警告说,这种便利伴随着严重的风险。“不幸的是,可以预见的是,患者会因为认为ChatGPT的指导足够而延迟寻求适当的医疗治疗,从而受到伤害甚至死亡。”他警告说。

哪个人工智能模型在回答医疗问题方面表现最好?

根据OpenAI的评估,其最新的o3模型在HealthBench上表现最佳,得分为60%。其次是xAI的Grok得分为54%,谷歌的Gemini 2.5 Pro得分为52%。

GPT-3.5 Turbo——即免费版ChatGPT所使用的模型——仅得分为16%。值得注意的是,OpenAI的GPT-4.1 Nano模型在性能上超过了旧的大模型,同时运行成本约为其四分之一,这表明新一代人工智能工具既变得更聪明也更高效。

尽管如此,Anbar博士指出,即使医疗系统仍然负担过重,常常在紧急情况下反应迟缓,像ChatGPT这样的AI工具也是不可靠的。“它提供回答时表现出的确定性可能会误导人,使人感到安心。”他说。

OpenAI在其宣布HealthBench的博客文章中承认了这些局限性,指出其模型在处理模糊或高风险查询时仍可能犯严重错误。在医学领域,即使一个不正确的答案也可能抵消几十个正确答案的影响。鉴于ChatGPT广泛用于健康相关问题,OpenAI的最新保障措施可能是一个进步——但是否足够仍然是一个悬而未决的问题。


(全文结束)

大健康

猜你喜欢

  • 美国第一所医学院将ChatGPT纳入教学美国第一所医学院将ChatGPT纳入教学
  • AI将在2030年将人类寿命翻倍,科技公司CEO声称。这是永生的曙光吗?AI将在2030年将人类寿命翻倍,科技公司CEO声称。这是永生的曙光吗?
  • 犹他州针对心理健康聊天机器人和生成式AI实施AI修正案犹他州针对心理健康聊天机器人和生成式AI实施AI修正案
  • 大多数公众认为NHS“单一患者记录”已经存在大多数公众认为NHS“单一患者记录”已经存在
  • 南洋理工大学获得1500万新元用于医学院,以推动AI研究帮助患者南洋理工大学获得1500万新元用于医学院,以推动AI研究帮助患者
  • 气温升高增加德克萨斯州死胎和早产风险气温升高增加德克萨斯州死胎和早产风险
  • 乌干达布东戈森林中的黑猩猩使用植物治疗伤口乌干达布东戈森林中的黑猩猩使用植物治疗伤口
  • Queen Latifah谈肥胖、污名化和心脏健康Queen Latifah谈肥胖、污名化和心脏健康
  • 信任鸿沟阻碍了医疗保健中的人工智能应用信任鸿沟阻碍了医疗保健中的人工智能应用
  • 研究表明门诊护理中普遍存在“高编码”现象研究表明门诊护理中普遍存在“高编码”现象
大健康
大健康

热点资讯

大健康

全站热点

大健康

全站热文

大健康