伦敦,2月9日(路透社)— 一项发表在《自然医学》上的新研究表明,患者在寻求医疗建议时使用人工智能(AI)并不比其他方法(如标准互联网搜索)更有效。
作者表示,这项研究很重要,因为人们越来越依赖AI和聊天机器人获取健康建议,但没有证据表明这一定是最佳和最安全的方法。
由牛津大学互联网研究所领导的研究人员与一组医生合作,制定了10种不同的医疗场景,从普通感冒到导致脑出血的危及生命的出血。
在无人类参与者参与的测试中,三个大型语言模型——OpenAI的ChatGPT-4o、Meta的Llama 3和Cohere的Command R+——在94.9%的案例中识别出病症,并在平均56.3%的案例中选择了正确的行动方案,如呼叫救护车或去看医生。相关公司未回应置评请求。
AI潜力与实际表现之间的"巨大差距"
研究人员随后在英国招募了1,298名参与者,让他们使用AI、常规资源(如互联网搜索)、个人经验或英国国家医疗服务体系(NHS)网站来调查症状并决定下一步行动。
当参与者这样做时,相关病症的识别率低于34.5%,正确行动建议率低于44.2%,与使用更传统工具的对照组相比并无优势。
该论文的合著者、牛津大学副教授Adam Mahdi表示,这项研究揭示了AI潜力与人类使用时的陷阱之间的"巨大差距"。
他说:"知识可能存在于这些机器人中;然而,在与人类互动时,这些知识并不总是能有效传达。"这意味着需要更多工作来确定原因。
人类常提供不完整信息
研究团队详细研究了约30次互动,得出结论:人类经常提供不完整或错误的信息,但大型语言模型(LLMs)有时也会生成误导性或错误的回应。
例如,一名报告蛛网膜下腔出血症状(一种导致脑出血的危及生命状况)的患者,在描述颈项强直、畏光和"有史以来最严重的头痛"后,AI正确建议其前往医院。另一名患者描述了相同症状但称"可怕"的头痛,却被建议在暗室中躺下。
研究团队现在计划在不同国家和语言中进行类似研究,并随时间推移测试这是否会影响AI的表现。
该研究得到了数据公司Prolific、德国非营利组织Dieter Schwarz Stiftung以及英国和美国政府的支持。
由Jennifer Rigby报道;Supantha Mukherjee补充报道;David Holmes编辑
【全文结束】

