呼叫医生GPT：AI对医疗健康咨询的回应准确率接近76% - AI与医疗健康

呼叫医生GPT：AI对医疗健康咨询的回应准确率接近76%Calling Doctor GPT: AI responses to healthcare queries are nearly 76% accurate | EurekAlert!

环球医讯 / AI与医疗健康来源：www.eurekalert.org美国 - 英语2026-05-29 16:24:27 - 阅读时长5分钟 - 2034字

宾夕法尼亚州立大学最新研究显示，人工智能聊天机器人对普通用户的日常健康问题回答准确率接近76%，但在神经学和皮肤病学等专业医疗领域表现较差；研究通过"Diagnose-a-thon"竞赛收集212个健康咨询问题，由9位认证医生评估AI回答的准确性和潜在危害，结果显示AI错误率超过20%约为人类医生的两倍，表明AI更适合辅助专业医疗人员而非直接面向患者提供诊断建议，这对理解AI在医疗健康领域的应用边界具有重要指导意义，研究将于2026年6月在加拿大蒙特利尔举行的ACM FAccT会议上正式发布。

宾夕法尼亚州立大学(Penn State)研究人员领导的一项新研究表明，人工智能(AI)驱动的聊天机器人对普通用户的日常健康相关问题回答准确率接近76%，这引发了人们对AI在现实世界面向客户的医疗应用中可信度的担忧。

研究人员希望了解普通人如何将AI用于健康相关问题，以及AI对日常医疗查询的回应准确度如何。他们发现，在医疗保健领域，特别是在神经学和皮肤病学等专业领域，AI工具可能更适合由训练有素的医生而非患者使用。该团队将于2026年6月25-28日在加拿大蒙特利尔举行的计算机协会公平性、问责制和透明度(FAccT)会议上展示他们的研究发现。

研究合著者、宾夕法尼亚州立大学信息科学与技术学院(IST)信息学与智能系统副教授Amulya Yadav表示："我们的工作明确关注普通互联网用户可能会向AI提出的医疗保健场景，这是先前关于大型语言模型(LLMs)和医疗保健的研究未曾涵盖的视角。我们想了解，如果人们像过去使用谷歌一样使用ChatGPT等LLM作为症状健康检查器，LLM回答这些问题的准确度如何，以及这些回答可能造成多大危害？"

为了了解LLM对普通互联网用户的健康相关回应可能有多准确或有害，研究人员在宾夕法尼亚州立大学举办了一场名为"Diagnose-a-thon"的AI竞赛。共有34名参与者——包括教职员工和本科生及研究生——从患者和医生两个角度，提交了212个针对真实和虚构健康问题的提示(prompt)及AI生成的回应。参赛者可以选择四种LLM中的一种用于比赛：ChatGPT-4o、ChatGPT-3.5、Gemini-1.5 Pro和Llama3-8b。

研究首席作者、信息科学与技术博士候选人Bonam Mingole表示："我们研究的一个优势在于，我们基本上试图通过告诉参与者选择他们喜欢的LLM并在日常中像平常一样使用它，来复制LLM在现实世界中的使用情况。这种参与式研究对于理解公众如何在日常生活中使用AI非常重要。"

随后，研究人员请9位获得委员会认证的医生使用从很低到很高的六点量表，评估AI生成回应的准确性和可能的危害程度。竞赛委员会向生成最准确医学信息的前八名提交者颁发了奖项，并向生成最可能造成危害的回应的提交者颁发了奖项。

研究发现，总体而言，76.2%的LLM生成回应提供了准确信息。妇产科学和耳鼻喉科学等专科——治疗影响耳、鼻和喉的疾病——LLM表现最佳，具有高有效性评分和低危害评分。内科、神经学和皮肤病学的AI表现最差，有效性评分低且危害评分高。研究人员补充说，非常具体的提示(prompt)以及60到250个字符之间的提示，会产生更准确的LLM输出。

随后，研究人员使用每个LLM的基础模型，并在医学教科书、临床指南和医学课程中包含的同行评审研究文章上对其进行训练，以查看额外训练是否会提高回应有效性评分并降低危害评分。他们请由7名医疗专业人员和实习生——一名获得委员会认证的医生、两名第二年内科住院医师、两名第四年医学生和两名第三年医学生——组成的小组评估基础LLM回应和增强LLM的回应，并确定哪些在临床上更合适。研究人员发现，专家组更喜欢Gemini和Llama基础模型的回应，而不是增强模型，而对于ChatGPT模型则没有显著偏好。

研究合著者、宾夕法尼亚州立医学院内科教授兼宾夕法尼亚州立临床与转化科学研究所主任Jennifer Kraschnewski表示："我们正在进入医疗保健的新时代，AI是其中的重要组成部分。医疗保健有真正的转型机会，可以整合这些新工具，让像我这样的临床医生能够利用它们来改善患者护理。"

研究人员还指出，尽管LLM有效性评分较高，但AI错误率仍超过20%，大约是人类医生错误率的两倍。他们表示，这些错误可能对患者造成潜在危害。

Kraschnewski表示："我认为AI不会取代人类医生，但我确实认为我们有机会以前所未有的方式帮助提升当今医生的技能。"她建议，当前的LLM可能对医疗专业人员而言比对患者而言是更好的工具。

总体而言，该研究突显了AI可能对每个人生活关键方面产生的潜在有益和有害影响。

研究合著者、宾夕法尼亚州立大学媒体效果Evan Pugh大学教授兼James P. Jimirro教授S. Shyam Sundar表示："无论我们是否喜欢，人们将继续使用AI来诊断他们的健康问题。通过了解他们的使用模式并测试AI性能的有效性，我们的项目有助于提高对AI在医疗建议中最佳和最差用途的认识。"

宾夕法尼亚州立大学信息科学与技术学院的博士生Aditya Majumdar和Firdaus Ahmed Choudhury也为该研究做出了贡献。宾夕法尼亚州立大学的社会责任人工智能中心主办了Diagnose-a-thon竞赛。

【全文结束】