研究揭示：AI聊天机器人每五次医疗提问就有一回答错AI Chatbots Fail Medical Questions One in Five Times, Study Reveals

环球医讯 / AI与医疗健康来源：www.yahoo.com美国 - 英语2026-05-30 11:59:55 - 阅读时长3分钟 - 1094字

宾夕法尼亚州立大学最新研究显示，主流AI聊天机器人在回答医疗问题时存在显著错误率，平均每五次提问就有一回答错。研究测试了ChatGPT-4o、ChatGPT-3.5、Gemini-1.5 Pro和Llama3-8b四种模型，发现整体错误率达24%，其中皮肤科和神经学问题错误率最高。尽管ChatGPT-4o表现最佳（准确率84.6%），但所有模型在心理健康等关键领域仍存在严重风险，医生强调AI不应替代专业医疗建议，仅可作为健康素养辅助工具，特别是在症状评估和就医决策方面需保持谨慎。

研究揭示：AI聊天机器人每五次医疗提问就有一回答错

即使ChatGPT的最新模型在15%的情况下也会给出错误的健康答案。当你询问症状、治疗方法或医疗决策时，某些AI系统的错误率会飙升至50%。宾夕法尼亚州立大学的一项新研究揭示了AI自信回答与实际医疗准确性之间的差距——这对于任何曾向聊天机器人输入"这个皮疹严重吗？"的人来说都是一个现实提醒。

顶级聊天机器人仍会遗漏关键健康细节

认证医师在测试212个真实健康问题时，发现所有主要AI模型都存在显著的准确性差距。

研究人员测试了四种流行的聊天机器人——ChatGPT-4o、ChatGPT-3.5、Gemini-1.5 Pro和Llama3-8b——这些问题通过大学竞赛形式收集。九位认证医师评估了这些回答，发现大约24%的回答未达到医疗标准。

ChatGPT-4o表现最佳，有效率为84.6%，而Llama3-8b仅能正确回答约一半的问题。一致性问题不仅仅涉及过时的模型——即使是OpenAI的旗舰产品也会犯下可能影响现实世界医疗决策的临床性错误。

医学专业决定AI表现

妇产科问题得分最高，而神经学和皮肤科暴露了所有聊天机器人模型的主要弱点。

问题类型极大地影响了准确率。妇产科和妇科查询表现最佳，而神经学、内科和皮肤科在所有模型中的得分都很低。

这种模式在临床上是有意义的：神经学通常涉及需要专业诊断知识的罕见疾病，而皮肤科则严重依赖视觉评估，纯文本聊天机器人根本无法执行。然而，这些系统仍会自信地提供皮肤状况的意见。研究人员还发现提示长度很重要，60到250个字符是获得准确回答的最佳范围。

增强型AI模型并不总能改善结果

检索增强生成未能一致提高性能，有时甚至使回答变得更差。

研究测试了检索增强生成(RAG)，即聊天机器人访问经过整理的医学知识库以获得有根据的回答。这种方法并未在所有模型中持续提高性能。

对于Gemini-1.5 Pro和Llama3-8b，医师实际上更喜欢标准版本而非其RAG增强版本。这一发现表明，仅仅向AI系统提供更多医学数据并不自动转化为更好的临床建议——这对健康AI开发工作是一个令人清醒的现实。

医生看到希望但警告不要替代

医师确定了有用的应用场景，同时强调关键的安全限制，特别是在心理健康场景中。

后续访谈显示，医师认为AI在以下方面有潜力：

健康素养支持
帮助患者为医生就诊生成有见地的问题
判断症状是否需要专业关注

然而，他们强烈警告不要过度依赖、隐私风险，尤其是在心理健康场景中，错误的建议可能是灾难性的。

共识很明确：这些工具不应取代专业医疗建议，尤其是当错误答案可能影响诊断、分诊或治疗决策时。

【全文结束】

本文内容由家庭大健康团队所原创或整理，未经授权不得转载、摘编或利用其它方式使用。欢迎分享至朋友圈。
本文仅代表作者观点，不代表本站立场，如有侵权请联系我们删除。

AI内容声明：本页内容撰写过程部分涉及AI（包括且不限于题材，素材，提纲的搜集与整理），请注意甄别。

猜你喜欢

电脉冲逆转海鞘衰老过程为延长人类寿命提供新线索
微软推出Copilot Health工具预览版
外部验证SCARE评分预测呼叫急救医疗通信中心患者急性心肌梗死的有效性：一项前瞻性多中心研究
世卫组织总干事抵达刚果表示埃博拉疫情可以被控制
数百万人在用的花粉热药物苯海拉明与较高痴呆风险相关联
AI正在扩展放射学服务但它是否真正改善了医疗服务的可及性
一种实验性GLP-1药物突破减肥极限，但伴随风险
老年人可能不需要的3项医疗常规检查
在生物安全前沿驾驭AI伦理：缓解风险的实用防护措施
COVID-19大流行期间及之后医疗保险受益人中的急性心肌梗死研究

热点资讯

全站热点

全站热文