如果你是一个疑病症患者,并且总是急切地想知道自己的症状意味着什么,你肯定曾经求助于谷歌来了解你的症状,尽管结果可能令人不安。现在,随着聊天机器人的出现,这种情况更进一步。
通过个性化的响应,非常具体的答案几乎可以告诉你发生了什么,OpenAI的聊天机器人已经成为许多用户的新型信任医生。基于这一点,一组西班牙研究人员为你进行了测试:他们分析了ChatGPT、谷歌和其他六个系统对150个医疗问题的回答,以查看它们的答案如何。
事实证明,如果不能打败对手,最好与之结盟,看看它们给出的答案是否成功或完全脱离上下文。
这项研究发表在《NPJ数字医学》上,揭示了像GPT-4这样的聊天机器人在咨询中的准确率为80%,而搜索引擎的准确率在50%-70%之间。但有一个陷阱:如果你改变问题的表述方式,AI可能会从一个医生瞬间变成亚马逊的巫医。尽管Bing是最可靠的搜索引擎,但仍有十分之一的答案是错误的。
具体来说,研究人员测试了四个搜索引擎——谷歌、Bing、Yahoo!、DuckDuckGo,以及七个AI模型,包括ChatGPT和GPT-4。这150个问题涵盖了从“布洛芬能治偏头痛吗?”到“大麻会导致精神分裂症吗?”
至于结果,ChatGPT和GPT-4以80%的准确率领先,谷歌和Bing停滞在65%-70%之间,表现最差的是Flan-T5模型,只有45%的准确率。
但是有一个巨大的但是,AI就像一个学生,如果老师问得好,他就能答得好。如果你使用诸如“我的胸痛,会是心脏病发作吗?”这样的口语化表达,其准确性就会下降。如果用医生的方式重新表述为“急性胸部疼痛是否表明可能存在心脏事件?”
此外,研究人员还尝试了一种称为检索增强生成的技术(类似于“快速检查”)。它包括在回答前提供最佳的谷歌搜索结果。这种方法的效果惊人,小型模型的表现达到了GPT-4的水平,准确率上升到了85%,但这仅限于谷歌的数据质量良好且问题是关于COVID-19的情况。
为什么ChatGPT获胜……但你不应该使用它?
这里有一个大问题,同时也是一个悖论:尽管AI更精确,但它们20%的错误率就像是在拿你的健康玩俄罗斯轮盘赌。研究人员发现:
- 15%的Bing和谷歌的回答是不正确的,尽管主题解释得很好。
- GPT-4在五分之一的关键病例中出错,例如心脏病发作的症状。
- 当AI不知道时,有时会编造数据。
尽管如此,正如你所看到的,还是让医生来做他们的工作,而不是依赖AI或搜索引擎。用户必须意识到风险,并在查询所有你能找到的信息时采取批判性的态度。
ChatGPT能否替代专业治疗师?
另一方面,许多用户也将聊天机器人当作心理治疗师使用,已经有几项研究表明这样做的优缺点。
“AI工具可以提供初步警告和情感指导,这可以成为有用的起点,并减少寻求支持的污名。”Duality Psychological Services的临床心理学家Joel Frank解释道。
在这种情况下,聊天机器人在这一领域的存在可以成为一个克服寻求专业帮助污名的入口,但并非没有风险,因为许多用户可能会用机器取代人类心理学家的关注。
“虽然一些研究已经表明AI模型如何能够改变心理健康和治疗护理,但也发现了一些不便之处,包括偏见和隐私侵犯。”他们说。
与此同时,为了控制这种不可避免的趋势,巴塞罗那诊所等医院已经在测试由医生监督的医疗服务。不久之后,你可能会有一个由医生验证答案的“谷歌医生”。在此之前,请记住,AI不是你主治医生的替代品,可能会引发实际上不存在的警报。
(全文结束)

