并非真正医生：人工智能在治疗人类患者方面面临困境 - AI与医疗健康

并非真正医生：人工智能在治疗人类患者方面面临困境Not a real doctor: AI struggles to treat human patients

环球医讯 / AI与医疗健康来源：www.msn.com英国 - 英语2026-02-10 23:03:47 - 阅读时长2分钟 - 923字

牛津大学在《自然医学》期刊发表的大规模随机对照试验显示，尽管人工智能聊天机器人能通过医学考试，但在实际医疗咨询中表现危险：仅34.5%的参与者通过AI正确识别病症，44.2%获得正确治疗建议，两名描述脑出血症状的患者竟收到截然相反的指导，该研究警告当前AI技术尚未准备好承担医师职责，患者需警惕向大语言模型咨询症状可能导致错误诊断和延误紧急救治的风险，同时指出人机交互中的沟通断层是核心挑战。

仅因为人工智能聊天机器人能通过医学考试，并不意味着它们应当充当医生角色——一项最新研究警告称，此类工具可能提供致命医疗建议。

在某案例中，两名咨询脑出血问题的男性用户从同一AI工具获得了完全相反的指导：一人被敦促立即就医，另一人却被告知只需在安静房间休息。

牛津大学研究人员于本周二在《自然医学》期刊发布此项警告。该研究基于涉及1300名参与者的大型随机对照试验，恰逢OpenAI宣布其ChatGPT Health服务并透露该热门AI工具每日处理逾2.3亿条健康相关咨询的一个月后。

由牛津互联网研究所及牛津大学研究者开展的这项研究，测试了三种大语言模型是否能帮助人们识别疾病状况并采取正确治疗措施。1298名参与者被随机分配至10种医疗场景之一，涵盖普通感冒、肺炎、胆结石及肺栓塞等病症。

其中一组通过传统信息渠道（如网络搜索）识别病情，另一组则使用ChatGPT采用的GPT-4o、Meta的Llama 3和Command R+等大语言模型。使用AI工具的参与者中，仅34.5%能识别自身医疗状况，44.2%获得正确处置方案——无论是呼叫救护车还是居家护理。

在描述蛛网膜下腔出血症状的案例中，GPT-4o向两名参与者给出了不同指导：仅一人被告知需立即就医，而当参与者描述胆结石症状时，AI竟建议可能是消化不良或胃酸反流。

牛津大学克莱伦登-鲁本博士学者丽贝卡·佩恩指出，这些发现凸显了开发解决人类健康问题技术的固有困难。"尽管炒作不断，AI目前根本未准备好承担医师角色，"佩恩博士强调，"患者必须意识到向大语言模型咨询症状存在危险，它可能给出错误诊断，且无法识别紧急救治需求。"

研究显示，当人类不参与提问时，AI工具的医疗评估准确率显著提升：在94.7%的案例中正确诊断病症，并在56.3%的情况下提供正确治疗方案。牛津互联网研究所研究员兼首席作者安德鲁·比恩认为，这表明人机交互存在沟通断层，亟需探索更优的软件测试方法。"即便是顶尖工具，与人类互动仍面临挑战，"他表示，"设计可靠的大语言模型测试体系，是理解如何有效利用这项新技术的关键。"

【全文结束】