聊天机器人常给出错误健康建议,医学研究发现Chatbots often get health answers wrong, medical study finds

环球医讯 / AI与医疗健康来源:www.dagens.com瑞典 - 英语2026-05-13 08:36:39 - 阅读时长2分钟 - 726字
一项发表在《BMJ Open》的跨国医学研究显示,ChatGPT、Gemini等主流聊天机器人在回答健康问题时存在严重缺陷,约20%的回复被判定为高度问题性答案,50%存在不同程度错误,尤其在营养学和运动表现等争议性领域错误率高达32%,研究强调语言模型因无法验证事实仅能预测文本模式,患者应将AI建议作为初步参考而非医疗依据,必须通过专业渠道核实健康信息以避免误诊风险。
聊天机器人错误健康建议AI医疗回答可靠性医学问题健康信息核实疫苗癌症营养学运动表现
聊天机器人常给出错误健康建议,医学研究发现

人工智能工具已成为日常生活的一部分。人们使用它们搜索健康建议、理解症状或了解治疗方法。这看似快速简便,但新研究显示,聊天机器人的医疗回答并不总是可靠。

问题性答案

美国、英国和加拿大的研究团队测试了五大主流系统:ChatGPT、Gemini、Grok、Meta AI和DeepSeek。该研究发表在《BMJ Open》期刊上,每个聊天机器人回答了50个医学问题,涵盖癌症、疫苗、营养、干细胞和运动表现等主题。

两名医学专家检查了每个回答,结果令人担忧:约20%的回复被判定为高度问题性,50%存在明显问题,30%部分存在问题,仅有极少数完全准确。所有聊天机器人都未能生成完全正确的参考文献列表——250个回答中仅两个被完全认可。Grok的问题回答率最高(58%),ChatGPT紧随其后(52%),Meta AI达50%。

答案质量与主题相关

聊天机器人在疫苗和癌症领域表现较好,这些领域在线结构化研究更充分,但仍有约四分之一答案存在问题。营养学和运动表现领域情况更糟,由于网络存在相互矛盾的建议且科学共识较弱,导致回复混乱加剧。

开放式问题(即人们日常实际提问的类型)错误率高达32%,而简单封闭式问题错误率降至7%。研究还发现严重引用问题:当要求提供科学来源时,聊天机器人常生成不完整或错误的参考文献列表,部分引用作者错误,甚至完全虚构来源。

专家指出,这是因为语言模型不像人类理解信息,它们仅基于模式预测文本,无法验证事实或评估证据。其训练数据包含科学论文,但也混杂博客、论坛和社交媒体内容。

研究人员警告,聊天机器人仍可作为一般指导或帮助患者准备医生问诊的工具,但绝不应作为最终医疗权威。健康信息必须通过可靠来源或专业人员核实。

【全文结束】

猜你喜欢
  • Whanganui及农村地区药房或将提供更多政府资助药品Whanganui及农村地区药房或将提供更多政府资助药品
  • 迈克尔和苏珊·戴尔成为德克萨斯大学奥斯汀分校首位十亿美元级别支持者迈克尔和苏珊·戴尔成为德克萨斯大学奥斯汀分校首位十亿美元级别支持者
  • 硅谷教母与其前学生联手改革医疗健康领域创新模式硅谷教母与其前学生联手改革医疗健康领域创新模式
  • 生物技术合作——越古关系的新增长点生物技术合作——越古关系的新增长点
  • 卫生官员对AI聊天机器人向患者提供的癌症治疗替代方案表示担忧卫生官员对AI聊天机器人向患者提供的癌症治疗替代方案表示担忧
  • 黑皮书研究:克罗地亚医疗IT从数字化转向执行黑皮书研究:克罗地亚医疗IT从数字化转向执行
  • 健康"压力测试"发现70%的AI医疗建议存在问题健康"压力测试"发现70%的AI医疗建议存在问题
  • 瓦肯:电子病历成为医疗服务中的"日常应用"瓦肯:电子病历成为医疗服务中的"日常应用"
  • 轮状病毒激增引发疫苗担忧,红十字会强调多样化血捐献者需求,大学医院启动女性运动员项目轮状病毒激增引发疫苗担忧,红十字会强调多样化血捐献者需求,大学医院启动女性运动员项目
  • 迈克尔与苏珊·戴尔成为德克萨斯大学奥斯汀分校首位10亿美元捐赠者迈克尔与苏珊·戴尔成为德克萨斯大学奥斯汀分校首位10亿美元捐赠者
热点资讯
全站热点
全站热文