牛津大学的研究表明,人工智能聊天机器人在医疗决策和患者分诊方面表现出有限的可靠性。牛津大学最近的研究称,依赖人工智能获取健康相关指导可能对患者安全和临床结果构成重大风险,这使得关于医疗决策中人工智能聊天机器人的辩论愈发激烈。
一项全面研究考察了人工智能对健康相关问题的可靠性,该研究涉及近1,300名英国参与者,分为四组。其中三组使用了不同的聊天机器人系统,分别是GPT-4o、Llama 3和Command R+,而第四组则作为对照组。该对照组被允许使用任何方法(包括互联网搜索或个人判断)来识别健康状况,无需人工智能辅助。
人工智能性能差距
研究方法包括由合格医生起草十个医疗场景,然后由其他临床医生为这些假设病例提供正确诊断。每位研究参与者随机分配到其中一个医疗场景,并与指定的人工智能聊天机器人互动(对照组除外),以帮助评估他们的状况。
随后,参与者报告了他们从人工智能系统获得的建议或从其他资源得出的结论,包括他们提议的行动方案,如寻求紧急初级护理、咨询全科医生或呼叫救护车。
研究结果表明,大型语言模型在医疗评估方面的表现并不优于传统方法。使用人工智能聊天机器人的患者在病情管理决策方面并未比依赖传统方法(如在线搜索或个人判断)的参与者做出更优的决策。推荐适当患者行动的准确性根据所使用的模型而有显著差异。GPT-4o达到了最高的准确率,为64.7%,而CommandR+的准确率略高于一半,为55.5%,Llama 3的准确率则低于一半,为48.8%。
"这些发现凸显了构建能够在敏感、高风险领域(如医疗保健)真正支持人们的AI系统的困难,"研究的主要医疗从业者、全科医生丽贝卡·佩恩博士表示。"尽管有各种炒作,人工智能尚未准备好承担医生的角色。患者需要意识到,向大型语言模型询问症状可能是危险的,因为它可能给出错误的诊断,并且无法识别何时需要紧急帮助。"
这些结果可能表明,当前的人工智能系统缺乏临床决策支持所需的可靠性,特别是在高风险医疗情况下,错误的指导可能导致治疗延误或不适当的护理路径。不同人工智能模型之间的性能差异凸显了各平台诊断能力的不一致性。
审查该研究的医疗保健专业人员对大型语言模型提供可靠医疗指导的准备程度表示谨慎。一些专家强调,尽管人工智能在医疗保健中有应用,但在广泛临床部署变得合适之前,需要解决几个因素。主要作者安德鲁·比恩表示,这些发现表明,与人类互动对"即使是顶尖的"人工智能模型也构成了挑战。"我们希望这项工作将有助于开发更安全、更有用的人工智能系统,"他表示。
医疗保健人工智能采用挑战
这项研究恰逢医疗保健人工智能整合的关键时刻。据OpenAI称,ChatGPT Health于2024年12月推出,已吸引了全球每周寻求健康相关信息的超过2.3亿用户,每日查询量超过4000万次。
然而,牛津大学的研究表明,三分之二的聊天机器人的准确率约为50%,这可能会引发医疗保健提供者对患者安全和责任的担忧。研究结果表明,人类互动即使是对于先进的人工智能模型也构成了挑战。
研究中发现的一个重要限制是用户对应该向人工智能聊天机器人提供什么信息以获得准确评估存在不确定性。这种知识差距可能意味着即使是复杂的人工智能系统也可能接收到不完整或不相关的数据,可能影响诊断准确性。对于考虑实施人工智能的医疗保健系统,这可能凸显了在技术部署的同时进行患者教育的必要性。如果没有关于如何与人工智能工具互动的适当指导,患者可能难以获得准确的评估,无论底层技术的能力如何。
医学伦理与局限
医疗保健评论员质疑人工智能是否能取代医生的判断,特别是考虑到人们对人工智能工具缺乏道德指南针和伦理信念的担忧。对于临床领导者来说,这可能表明人工智能应该作为决策支持工具,而不是医疗专业人员的替代品。
Interactive的管理顾问萨迪亚·马哈茂德表示:"人工智能有其用途,但它是一把双刃剑,我们需要明智地使用它。人工智能能取代医生吗?我的观点是坚决'不'。人工智能工具没有道德指南针和伦理信念。"
该研究强调了构建能够在敏感、高风险领域(如医疗保健)真正支持患者的AI系统的困难,尽管围绕人工智能在医疗保健中能力的炒作相当多。所确定的局限性提出了关于人工智能在临床环境中适当角色的基本问题。
该研究的影响超出了个体患者互动,延伸至更广泛的医疗保健系统考虑。随着医疗保健组织面临在维持患者安全标准的同时采用创新技术的压力,牛津大学的研究可能会为基于证据的人工智能整合方法提供信息。医疗保健高管可能需要平衡对人工智能效率提升的热情与已证明的准确性局限以及误诊或不适当分诊建议的潜在风险。
证据表明,对人工智能部署采取谨慎的方法可能比快速、广泛采用更为合适。
【全文结束】

