AI聊天机器人回答健康问题总体准确率适中 - AI与医疗健康

AI聊天机器人回答健康问题总体准确率适中AI chatbots answer health questions with moderate overall accuracy

环球医讯 / AI与医疗健康来源：www.news-medical.net美国 - 英语2026-05-29 10:59:42 - 阅读时长5分钟 - 2329字

宾夕法尼亚州立大学研究人员发现，人工智能驱动的聊天机器人对普通用户日常健康问题的回答准确率接近76%，但在神经学和皮肤病学等专业领域的表现较差。研究通过"诊断马拉松"竞赛收集了34名参与者提交的212个问题，由9名经委员会认证的医生评估AI回答的准确性和潜在危害。结果显示，尽管AI在妇产科和耳鼻喉科等领域的表现较好，但内科、神经学和皮肤病学的表现较差，错误率超过20%，约为人类医生的两倍。研究人员建议AI工具更适合由训练有素的医生而非患者使用，以提高医疗保健质量并减少潜在风险。

人工智能(AI)驱动的聊天机器人对普通用户的日常健康相关问题的回答准确率接近76%，这引发了人们对它们在实际面向客户的应用中可信度的担忧，根据宾夕法尼亚州立大学研究人员领导的一项新研究。

研究人员希望了解普通人如何将AI用于健康相关问题，以及AI对日常医疗查询的回答准确度如何。他们发现，在医疗保健领域，特别是神经学和皮肤病学等专业领域，AI工具可能在训练有素的医生手中比在患者手中效果更好。该团队将于6月25-28日在加拿大蒙特利尔举行的2026年计算机协会公平性、问责制和透明度(FAccT)会议上展示他们的研究结果。

"我们的研究明确关注普通互联网用户可能会向AI提出的医疗保健场景，这是先前关于大型语言模型(LLMs)和医疗保健的研究尚未涉及的视角。我们想了解，如果人们像历史上使用谷歌一样使用ChatGPT等LLMs作为症状检查器，LLM回答这些问题的准确度如何，以及这些回答可能造成多大危害？"

——阿穆拉·亚达夫(Amulya Yadav)，研究合著者，宾夕法尼亚州立大学信息科学与技术学院(IST)信息学与智能系统副教授

为了了解LLM对普通互联网用户生成的健康相关回答的准确度或潜在危害，研究人员在宾夕法尼亚州立大学举办了一场名为"诊断马拉松"(Diagnose-a-thon)的AI竞赛。共有34名参与者——包括教职员工以及本科和研究生——提交了212个提示和AI生成的回复，内容涉及真实和想象的健康问题，从患者和医生两个角度撰写。参与者可以选择使用四种LLM中的一种进行比赛：ChatGPT-4o、ChatGPT-3.5、Gemini-1.5 Pro和Llama3-8b。

"我们研究的一个优势是，我们基本上试图复制LLM在现实世界中的使用情况，告诉参与者选择他们喜欢的LLM，并像平常一样使用它，"该研究的主要作者、信息技术博士生博纳姆·明戈勒(Bonam Mingole)表示，"这种参与式研究对于了解公众如何在日常生活中使用AI非常重要。"

然后，研究人员请9名经委员会认证的医生使用从极低到极高的六分制来评估AI生成回答的准确性和可能的危害程度。竞赛委员会向生成最准确医疗信息的前八份提交作品以及生成最可能导致危害的回复的作品颁发了奖项。

他们发现，总体而言，76.2%的LLM生成回复提供了准确信息。妇产科和耳鼻喉科——治疗影响耳朵、鼻子和喉咙的疾病的学科——表现出最佳的LLM性能，有效性和危害评分高。内科、神经学和皮肤病学的表现最差，有效评分低而危害评分高。研究人员补充说，非常具体的提示以及60至250个字符之间的提示，会产生更准确的LLM输出。

研究人员随后获取了每个LLM的基本模型，并使用医学教科书、临床指南和医学课程中包含的同行评审研究文章对其进行训练，以查看额外训练是否会提高响应有效性评分并降低危害评分。他们请由7名医疗专业人员和实习生组成的小组——一名经委员会认证的医生、两名二年级内科住院医师、两名四年级医学生和两名三年级医学生——评估基本LLM回复和增强型LLM的回复，并确定哪些在临床上更合适。研究人员发现，小组更喜欢Gemini和Llama基本模型的回复，而不是增强模型的回复，而对于ChatGPT模型则没有显著偏好。

"我们正进入医疗保健的新时代，AI是其中的重要组成部分，"研究合著者、宾夕法尼亚州立大学临床与转化科学研究所主任、宾夕法尼亚州立大学医学院内科教授詹妮弗·克拉什内夫斯基(Jennifer Kraschnewski)表示，"医疗保健确实有机会转型，整合这些新工具，使像我这样的临床医生能够利用它们来改善患者护理。"

研究人员还指出，尽管LLM的有效性评分很高，但AI错误率仍超过20%，大约是人类医生错误率的两倍。他们表示，这些错误可能对患者造成潜在危害。

"我不认为AI会取代人类医生，但我确实认为我们有机会以前所未有的方式帮助提升当今医生的能力，"克拉什内夫斯基表示，她建议当前的LLM可能对医疗专业人员而言比对患者更有用。

总体而言，研究人员表示，该研究突显了AI可能对每个人生活关键方面产生的潜在有益和有害影响。

"无论喜不喜欢，人们将继续使用AI来诊断他们的健康问题，"研究合著者、宾夕法尼亚州立大学伊万·帕夫大学教授兼媒体效果吉米罗教授S.希亚姆·桑达尔(S. Shyam Sundar)表示，"通过了解他们的使用模式并测试AI性能的有效性，我们的项目有助于提高对AI用于医疗建议的最佳和最差用途的认识。"

宾夕法尼亚州立大学信息科学与技术学院的博士生阿迪提亚·马朱姆达尔(Aditya Majumdar)和菲尔道斯·艾哈迈德·乔杜里(Firdaus Ahmed Choudhury)也为该研究做出了贡献。宾夕法尼亚州立大学的社会责任人工智能中心主办了"诊断马拉松"竞赛。

来源：

宾夕法尼亚州立大学

期刊参考：

Mingole, B., et al. (2026) Dr. GPT Will See You Now, but Should It? Exploring the Benefits and Harms of Large Language Models in Medical Diagnosis using Crowdsourced Clinical Cases. DOI: 10.48550/arXiv.2506.13805.

【全文结束】