研究揭示:AI聊天机器人每五次医疗提问就有一回答错AI Chatbots Fail Medical Questions One in Five Times, Study Reveals

环球医讯 / AI与医疗健康来源:www.yahoo.com美国 - 英语2026-05-30 11:59:55 - 阅读时长3分钟 - 1094字
宾夕法尼亚州立大学最新研究显示,主流AI聊天机器人在回答医疗问题时存在显著错误率,平均每五次提问就有一回答错。研究测试了ChatGPT-4o、ChatGPT-3.5、Gemini-1.5 Pro和Llama3-8b四种模型,发现整体错误率达24%,其中皮肤科和神经学问题错误率最高。尽管ChatGPT-4o表现最佳(准确率84.6%),但所有模型在心理健康等关键领域仍存在严重风险,医生强调AI不应替代专业医疗建议,仅可作为健康素养辅助工具,特别是在症状评估和就医决策方面需保持谨慎。
AI聊天机器人医疗回答准确性健康问题医疗建议ChatGPTGeminiLlama3检索增强生成医疗决策健康素养
研究揭示:AI聊天机器人每五次医疗提问就有一回答错

即使ChatGPT的最新模型在15%的情况下也会给出错误的健康答案。当你询问症状、治疗方法或医疗决策时,某些AI系统的错误率会飙升至50%。宾夕法尼亚州立大学的一项新研究揭示了AI自信回答与实际医疗准确性之间的差距——这对于任何曾向聊天机器人输入"这个皮疹严重吗?"的人来说都是一个现实提醒。

顶级聊天机器人仍会遗漏关键健康细节

认证医师在测试212个真实健康问题时,发现所有主要AI模型都存在显著的准确性差距。

研究人员测试了四种流行的聊天机器人——ChatGPT-4o、ChatGPT-3.5、Gemini-1.5 Pro和Llama3-8b——这些问题通过大学竞赛形式收集。九位认证医师评估了这些回答,发现大约24%的回答未达到医疗标准。

ChatGPT-4o表现最佳,有效率为84.6%,而Llama3-8b仅能正确回答约一半的问题。一致性问题不仅仅涉及过时的模型——即使是OpenAI的旗舰产品也会犯下可能影响现实世界医疗决策的临床性错误。

医学专业决定AI表现

妇产科问题得分最高,而神经学和皮肤科暴露了所有聊天机器人模型的主要弱点。

问题类型极大地影响了准确率。妇产科和妇科查询表现最佳,而神经学、内科和皮肤科在所有模型中的得分都很低。

这种模式在临床上是有意义的:神经学通常涉及需要专业诊断知识的罕见疾病,而皮肤科则严重依赖视觉评估,纯文本聊天机器人根本无法执行。然而,这些系统仍会自信地提供皮肤状况的意见。研究人员还发现提示长度很重要,60到250个字符是获得准确回答的最佳范围。

增强型AI模型并不总能改善结果

检索增强生成未能一致提高性能,有时甚至使回答变得更差。

研究测试了检索增强生成(RAG),即聊天机器人访问经过整理的医学知识库以获得有根据的回答。这种方法并未在所有模型中持续提高性能。

对于Gemini-1.5 Pro和Llama3-8b,医师实际上更喜欢标准版本而非其RAG增强版本。这一发现表明,仅仅向AI系统提供更多医学数据并不自动转化为更好的临床建议——这对健康AI开发工作是一个令人清醒的现实。

医生看到希望但警告不要替代

医师确定了有用的应用场景,同时强调关键的安全限制,特别是在心理健康场景中。

后续访谈显示,医师认为AI在以下方面有潜力:

  • 健康素养支持
  • 帮助患者为医生就诊生成有见地的问题
  • 判断症状是否需要专业关注

然而,他们强烈警告不要过度依赖、隐私风险,尤其是在心理健康场景中,错误的建议可能是灾难性的。

共识很明确:这些工具不应取代专业医疗建议,尤其是当错误答案可能影响诊断、分诊或治疗决策时。

【全文结束】

猜你喜欢
  • 脑部成像研究突显痴呆症的种族差异脑部成像研究突显痴呆症的种族差异
  • 57岁人群心脏病发作并不罕见57岁人群心脏病发作并不罕见
  • 28岁女子在音乐节遭人群冲浪者意外踢中头部后死亡 家人称28岁女子在音乐节遭人群冲浪者意外踢中头部后死亡 家人称
  • 在生物安全前沿驾驭AI伦理:缓解风险的实用防护措施在生物安全前沿驾驭AI伦理:缓解风险的实用防护措施
  • 电脉冲逆转海鞘衰老过程 为延长人类寿命提供新线索电脉冲逆转海鞘衰老过程 为延长人类寿命提供新线索
  • AI赋能医疗教育中,批判性思维应居首位AI赋能医疗教育中,批判性思维应居首位
  • 廉价止痛药或增加心脏病发作风险廉价止痛药或增加心脏病发作风险
  • 老年人可能不需要的3项医疗常规检查老年人可能不需要的3项医疗常规检查
  • 俄勒冈州儿童疫苗接种率降至历史最低点 豁免申请数量创新高俄勒冈州儿童疫苗接种率降至历史最低点 豁免申请数量创新高
  • AI正在扩展放射学服务 但它是否真正改善了医疗服务的可及性AI正在扩展放射学服务 但它是否真正改善了医疗服务的可及性
热点资讯
全站热点
全站热文