随着生成式AI技术的不断进步和扩展,已远超早期如Bing Chat那样简单的查询响应功能,对于缺乏技术知识的用户来说,充分使用AI工具正变得越来越困难。
尤其令人担忧的是,像OpenAI的ChatGPT这样的工具正在全球范围内被广泛采用。在该公司推出新的图像生成工具后,ChatGPT在一小时内吸引了百万新用户,并因Studio Ghibli梗图在社交媒体上迅速走红。
尽管微软与OpenAI因盈利模式发展计划产生分歧,用户仍然经常将两者的AI产品——微软Copilot和ChatGPT进行比较。此外,它们主要基于相同的技术和AI模型运行,但最近有报道称,微软正在测试第三方模型并开发自己的非前沿模型用于Copilot。
另一份报告显示,微软AI部门收到的用户投诉中,最常见的问题是“Copilot不如ChatGPT好用”。对此,这家科技巨头迅速驳回了这一说法,将责任归咎于用户糟糕的提示工程技能。为此,微软甚至推出了Copilot学院,帮助用户提升AI技能并全面优化他们使用Copilot等AI工具的体验。
今年五月,微软Teams负责人杰夫·泰珀(Jeff Teper)承认,Copilot和ChatGPT几乎是同一回事,但微软的产品提供了更高的安全性和更强大的用户体验。
然而事实证明,微软可能确实抓住了问题的关键——将责任归咎于用户提示技能不足。如果以麻省理工学院(MIT)研究人员的一项新研究为依据,这种观点更具说服力(通过Futurism报道)。
在使用AI工具时要警惕“拼写错误”
该研究表明,过度依赖AI工具获取医疗建议可能会带来危险,有时甚至是误导性的。更令人担忧的是,研究还发现,如果用户的提问包含拼写错误,例如单词拼写错误或句子中多了一个空格,AI工具可能会建议用户不要寻求医疗帮助。在这种情况下,使用花哨的语言和俚语也是一个危险信号。
研究人员进一步指出,女性用户比男性更容易成为这种不良AI建议的受害者,但这一点仍需谨慎对待。这项研究聚焦于以下AI工具:OpenAI的GPT-4、Meta的Llama-3-70b以及一款名为Palmyra-Med的医疗AI。
他们模拟了数千个健康案例,其中包括来自医疗数据库的真实患者投诉、与健康相关的Reddit帖子以及AI生成的案例。
有趣的是,研究人员决定在数据中加入“干扰因素”,目的是打乱聊天机器人的判断,包括句子开头字母大小写的不一致、感叹号的使用、花哨的语言以及使用诸如“可能”之类的不确定表达。
聊天机器人似乎落入了这些陷阱,导致它们改变了对病情的看法及医疗建议。研究表明,这些干扰因素使聊天机器人建议患者不去医院的可能性增加了7%到9%。
研究人员得出结论,这些AI工具严重依赖其训练的医学数据,因此难以解读患者的共享信息,因为这些信息不像医学文献那样流畅且结构化。
根据该研究的主要作者、麻省理工学院研究员阿比尼萨·古拉巴蒂纳(Abinitha Gourabathina)的说法:
“这些模型通常是在医学考试问题上进行训练和测试的,但却被用于与其相去甚远的任务,比如评估临床病例的严重程度。关于大语言模型(LLM),我们仍然知之甚少。”
这一发现引发了对将AI工具整合到医学领域的关键担忧。就在不久前,微软刚刚吹嘘了一款新的AI医疗工具,称其比人类医生准确4倍且成本低20%。该公司的AI首席执行官将其称为“迈向医疗超级智能的重要一步”。
这一切表明,生成式AI在完全胜任医学这样复杂的领域之前,还有很长的路要走。
(全文结束)

