牛津大学：人工智能在医疗保健和医学中可靠吗 - AI与医疗健康

牛津大学：人工智能在医疗保健和医学中可靠吗Oxford University: Is AI Reliable in Healthcare & Medicine? | Healthcare Digital

环球医讯 / AI与医疗健康来源：healthcare-digital.com英国 - 英语2026-03-03 22:33:51 - 阅读时长4分钟 - 1992字

牛津大学最新研究揭示人工智能聊天机器人在医疗决策和患者分诊方面表现有限，GPT-4o、Llama 3和Command R+三种主流AI模型的准确率分别为64.7%、48.8%和55.5%，均未显著优于传统方法；这项涉及近1300名英国参与者的全面研究表明，依赖AI获取健康指导可能对患者安全构成重大风险，特别是在高风险医疗场景中可能给出错误诊断且无法识别紧急情况，专家警告当前AI系统尚不具备替代医生的能力，医疗机构在推进AI应用时应采取谨慎策略，同时加强患者教育以确保医疗安全并避免因误诊或不适当分诊建议导致的治疗延误。

牛津大学的研究表明，人工智能聊天机器人在医疗决策和患者分诊方面表现出有限的可靠性。牛津大学最近的研究称，依赖人工智能获取健康相关指导可能对患者安全和临床结果构成重大风险，这使得关于医疗决策中人工智能聊天机器人的辩论愈发激烈。

一项全面研究考察了人工智能对健康相关问题的可靠性，该研究涉及近1,300名英国参与者，分为四组。其中三组使用了不同的聊天机器人系统，分别是GPT-4o、Llama 3和Command R+，而第四组则作为对照组。该对照组被允许使用任何方法（包括互联网搜索或个人判断）来识别健康状况，无需人工智能辅助。

人工智能性能差距

研究方法包括由合格医生起草十个医疗场景，然后由其他临床医生为这些假设病例提供正确诊断。每位研究参与者随机分配到其中一个医疗场景，并与指定的人工智能聊天机器人互动（对照组除外），以帮助评估他们的状况。

随后，参与者报告了他们从人工智能系统获得的建议或从其他资源得出的结论，包括他们提议的行动方案，如寻求紧急初级护理、咨询全科医生或呼叫救护车。

研究结果表明，大型语言模型在医疗评估方面的表现并不优于传统方法。使用人工智能聊天机器人的患者在病情管理决策方面并未比依赖传统方法（如在线搜索或个人判断）的参与者做出更优的决策。推荐适当患者行动的准确性根据所使用的模型而有显著差异。GPT-4o达到了最高的准确率，为64.7%，而CommandR+的准确率略高于一半，为55.5%，Llama 3的准确率则低于一半，为48.8%。

"这些发现凸显了构建能够在敏感、高风险领域（如医疗保健）真正支持人们的AI系统的困难，"研究的主要医疗从业者、全科医生丽贝卡·佩恩博士表示。"尽管有各种炒作，人工智能尚未准备好承担医生的角色。患者需要意识到，向大型语言模型询问症状可能是危险的，因为它可能给出错误的诊断，并且无法识别何时需要紧急帮助。"

这些结果可能表明，当前的人工智能系统缺乏临床决策支持所需的可靠性，特别是在高风险医疗情况下，错误的指导可能导致治疗延误或不适当的护理路径。不同人工智能模型之间的性能差异凸显了各平台诊断能力的不一致性。

审查该研究的医疗保健专业人员对大型语言模型提供可靠医疗指导的准备程度表示谨慎。一些专家强调，尽管人工智能在医疗保健中有应用，但在广泛临床部署变得合适之前，需要解决几个因素。主要作者安德鲁·比恩表示，这些发现表明，与人类互动对"即使是顶尖的"人工智能模型也构成了挑战。"我们希望这项工作将有助于开发更安全、更有用的人工智能系统，"他表示。

医疗保健人工智能采用挑战

这项研究恰逢医疗保健人工智能整合的关键时刻。据OpenAI称，ChatGPT Health于2024年12月推出，已吸引了全球每周寻求健康相关信息的超过2.3亿用户，每日查询量超过4000万次。

然而，牛津大学的研究表明，三分之二的聊天机器人的准确率约为50%，这可能会引发医疗保健提供者对患者安全和责任的担忧。研究结果表明，人类互动即使是对于先进的人工智能模型也构成了挑战。

研究中发现的一个重要限制是用户对应该向人工智能聊天机器人提供什么信息以获得准确评估存在不确定性。这种知识差距可能意味着即使是复杂的人工智能系统也可能接收到不完整或不相关的数据，可能影响诊断准确性。对于考虑实施人工智能的医疗保健系统，这可能凸显了在技术部署的同时进行患者教育的必要性。如果没有关于如何与人工智能工具互动的适当指导，患者可能难以获得准确的评估，无论底层技术的能力如何。