《BMJ Open》发布的一项新研究发现,当人们向AI聊天机器人咨询健康问题时,它们约有一半时间会提供误导性或不妥当的健康建议。该研究分析了ChatGPT、Gemini、Grok、Meta AI和DeepSeek等聊天机器人,每个系统被问及50个涉及癌症、疫苗、干细胞、营养和运动表现的健康与医疗问题。
研究人员发现,当这些工具用于处理真实患者症状时,存在显著差距。
该研究的主要医疗负责人、全科医生丽贝卡·佩恩博士(Dr. Rebecca Payne,牛津大学初级保健健康科学奈菲尔德系和班戈大学)表示:"这些发现突显了构建能够在健康等敏感、高风险领域真正支持人们的AI系统的困难。尽管有各种炒作,但AI尚未准备好承担医生的角色。患者需要意识到,向大型语言模型咨询症状可能是危险的,因为它可能导致错误诊断,并且无法判断何时需要紧急医疗救助。"
根据该研究,近50%对常见健康问题的回答被标记为有问题或不准确。约30%的回答缺乏做出安全医疗决策所需的完整背景信息。
一些聊天机器人对非科学的治疗方法给予了同等重视,实际上"合法化"了未经证实的替代疗法,而非标准医疗护理。用户通常不提供AI所需的特定数据,而AI在给出建议前很少提出澄清问题。
资深作者兼副教授亚当·马迪(Adam Mahdi)表示:"基准测试分数与实际表现之间的脱节应该为AI开发者和监管机构敲响警钟。我们最近在基准测试中的结构有效性研究表明,许多评估无法测量它们声称要测量的内容,而这项研究恰恰证明了为什么这一点很重要。我们不能仅依靠标准化测试来确定这些系统是否适合公众使用。正如我们对新药物要求进行临床试验一样,AI系统也需要与多样化的真实用户进行严格测试,以了解它们在医疗等高风险场景中的真实能力。"
【全文结束】

