微软新的人工智能是否仍“比人类医生准确四倍”？——医疗提示中的拼写错误可能带来灾难性后果 - AI与医疗健康

微软新的人工智能是否仍“比人类医生准确四倍”？——医疗提示中的拼写错误可能带来灾难性后果Don't use AI for medical advice if you're prone to typos

环球医讯 / AI与医疗健康来源：www.windowscentral.com美国 - 英文2025-07-15 19:01:53 - 阅读时长4分钟 - 1586字

研究表明，向AI聊天机器人寻求医疗建议可能导致严重后果，尤其是当提示中包含拼写错误时，AI可能给出误导性建议，甚至劝阻患者就医。微软和OpenAI的AI工具在医疗领域的表现引发关注。

向AI聊天机器人寻求医疗建议可能会导致严重后果，特别是当您的提示包含即使是轻微的拼写错误时。

一项新研究强调了简单的拼写错误如何导致由AI驱动的工具错误地建议患者不要寻求医疗帮助。（图片来源：Getty Images | Dana Neely）

随着生成式人工智能变得越来越先进并扩展到更高的水平，超越了像早期Bing Chat那样简单的查询响应功能，对于没有技术知识的用户来说，充分利用人工智能工具正变得越来越困难。

这种现象尤其令人担忧，因为像OpenAI的ChatGPT这样的工具正在全球范围内被广泛采用，在该公司推出其新图像生成工具后，仅一小时内就吸引了100万新用户，这一工具在社交媒体上因吉卜力工作室表情包而迅速走红。

尽管微软与OpenAI因盈利计划产生分歧，用户常常将两者的AI产品进行比较，例如Microsoft Copilot和ChatGPT。此外，它们主要基于相同的技术和AI模型，但最近有报道称微软正在Copilot中测试第三方模型，并且正在开发自己的非前沿模型。

另一份报告显示，用户向微软AI部门提出的最常见投诉是：“Copilot不如ChatGPT好用。”这家科技巨头迅速驳回了这一说法，将责任归咎于糟糕的提示工程技能。它甚至推出了Copilot学院，以帮助用户提高他们的AI技能，并总体提升他们使用Copilot等AI工具的体验。

今年5月，Microsoft Teams负责人Jeff Teper承认，Copilot和ChatGPT几乎是一回事，但他表示，微软的产品提供了更好的安全性和更强大的用户体验。

然而，事实证明，微软可能抓住了问题的关键，将责任归咎于糟糕的提示工程技能，尤其是如果根据麻省理工学院研究人员的新研究来看的话。

使用AI时要对拼写错误保持“警惕”

（图片来源：Getty Images | KIRILL KUDRYAVTSEV）

这项研究表明，过度依赖AI工具获取医疗建议可能是危险的，有时甚至是误导性的。更令人担忧的是，报告指出，如果用户的查询中包含拼写错误，例如拼错单词或句子中多了一个空格，AI工具可能会建议用户不要就医。在这种情况下，使用花哨的语言和俚语也是一个警示信号。

研究人员进一步声称，女性用户比男性更容易成为这种不良AI建议的受害者，因此这一点需要谨慎看待。这项研究集中在以下AI工具上：OpenAI的GPT-4、Meta的LLama-3-70b以及一个名为Palmyra-Med的医疗AI。

他们模拟了数千个健康案例，这些案例结合了来自医疗数据库的真实患者投诉、健康相关的Reddit帖子以及AI生成的案例。

有趣的是，研究人员决定在数据中加入“扰动”，目的是让聊天机器人措手不及，包括句子开头字母大小写的不一致、感叹号、花哨的语言以及使用诸如“可能”之类的不确定语言。

聊天机器人似乎落入了陷阱，促使它们改变了对病情的看法和医疗建议。研究表明，这些扰动使聊天机器人建议患者不去医院的可能性增加了7%到9%。

研究人员推断，这些AI工具严重依赖其训练的医疗数据，这使得它们难以解读患者提供的信息，因为这些信息不像医学文献那样流畅和结构化。

根据该研究的第一作者、麻省理工学院研究员Abinitha Gourabathina的说法：

“这些模型通常在医学考试问题上进行训练和测试，但后来却被用于与此相去甚远的任务，比如评估临床病例的严重程度。关于大型语言模型（LLMs），我们仍然有许多未知之处。”

这些发现引发了关于AI工具在医学领域整合的重要关切。此消息发布之际，微软刚刚吹捧了一款新AI医疗工具，称其比人类医生准确四倍且便宜20%。该公司的AI首席执行官称其为“迈向医疗超级智能的真正一步”。

这一切表明，生成式AI在完全被信任应用于医学等复杂领域之前，还有很长的路要走。

(全文结束)