向AI聊天机器人寻求医疗建议可能会导致严重后果,特别是当您的提示包含即使是轻微的拼写错误时。
一项新研究强调了简单的拼写错误如何导致由AI驱动的工具错误地建议患者不要寻求医疗帮助。(图片来源:Getty Images | Dana Neely)
随着生成式人工智能变得越来越先进并扩展到更高的水平,超越了像早期Bing Chat那样简单的查询响应功能,对于没有技术知识的用户来说,充分利用人工智能工具正变得越来越困难。
这种现象尤其令人担忧,因为像OpenAI的ChatGPT这样的工具正在全球范围内被广泛采用,在该公司推出其新图像生成工具后,仅一小时内就吸引了100万新用户,这一工具在社交媒体上因吉卜力工作室表情包而迅速走红。
尽管微软与OpenAI因盈利计划产生分歧,用户常常将两者的AI产品进行比较,例如Microsoft Copilot和ChatGPT。此外,它们主要基于相同的技术和AI模型,但最近有报道称微软正在Copilot中测试第三方模型,并且正在开发自己的非前沿模型。
另一份报告显示,用户向微软AI部门提出的最常见投诉是:“Copilot不如ChatGPT好用。”这家科技巨头迅速驳回了这一说法,将责任归咎于糟糕的提示工程技能。它甚至推出了Copilot学院,以帮助用户提高他们的AI技能,并总体提升他们使用Copilot等AI工具的体验。
今年5月,Microsoft Teams负责人Jeff Teper承认,Copilot和ChatGPT几乎是一回事,但他表示,微软的产品提供了更好的安全性和更强大的用户体验。
然而,事实证明,微软可能抓住了问题的关键,将责任归咎于糟糕的提示工程技能,尤其是如果根据麻省理工学院研究人员的新研究来看的话。
使用AI时要对拼写错误保持“警惕”
(图片来源:Getty Images | KIRILL KUDRYAVTSEV)
这项研究表明,过度依赖AI工具获取医疗建议可能是危险的,有时甚至是误导性的。更令人担忧的是,报告指出,如果用户的查询中包含拼写错误,例如拼错单词或句子中多了一个空格,AI工具可能会建议用户不要就医。在这种情况下,使用花哨的语言和俚语也是一个警示信号。
研究人员进一步声称,女性用户比男性更容易成为这种不良AI建议的受害者,因此这一点需要谨慎看待。这项研究集中在以下AI工具上:OpenAI的GPT-4、Meta的LLama-3-70b以及一个名为Palmyra-Med的医疗AI。
他们模拟了数千个健康案例,这些案例结合了来自医疗数据库的真实患者投诉、健康相关的Reddit帖子以及AI生成的案例。
有趣的是,研究人员决定在数据中加入“扰动”,目的是让聊天机器人措手不及,包括句子开头字母大小写的不一致、感叹号、花哨的语言以及使用诸如“可能”之类的不确定语言。
聊天机器人似乎落入了陷阱,促使它们改变了对病情的看法和医疗建议。研究表明,这些扰动使聊天机器人建议患者不去医院的可能性增加了7%到9%。
研究人员推断,这些AI工具严重依赖其训练的医疗数据,这使得它们难以解读患者提供的信息,因为这些信息不像医学文献那样流畅和结构化。
根据该研究的第一作者、麻省理工学院研究员Abinitha Gourabathina的说法:
“这些模型通常在医学考试问题上进行训练和测试,但后来却被用于与此相去甚远的任务,比如评估临床病例的严重程度。关于大型语言模型(LLMs),我们仍然有许多未知之处。”
这些发现引发了关于AI工具在医学领域整合的重要关切。此消息发布之际,微软刚刚吹捧了一款新AI医疗工具,称其比人类医生准确四倍且便宜20%。该公司的AI首席执行官称其为“迈向医疗超级智能的真正一步”。
这一切表明,生成式AI在完全被信任应用于医学等复杂领域之前,还有很长的路要走。
(全文结束)

