生成式AI在医疗领域的隐患：MIT研究揭示工具局限性 - AI与医疗健康

生成式AI在医疗领域的隐患：MIT研究揭示工具局限性Is Microsoft's new AI still "4x more accurate than human doctors"? — Typos in medical prompts to chatbots could be catastrophic

环球医讯 / AI与医疗健康来源：www.msn.com美国 - 英文2025-07-15 18:03:58 - 阅读时长3分钟 - 1467字

MIT研究表明，生成式AI工具在处理用户输入的拼写错误或非正式语言时可能给出误导性医疗建议，这凸显了其在复杂医学领域应用中的局限性，同时也引发对AI医疗工具可靠性的广泛担忧。

随着生成式AI技术的进步和规模扩展，超越了早期如Bing Chat那样简单的问答功能，对于缺乏技术知识的用户来说，如何充分利用AI工具正变得越来越困难。

特别是像OpenAI的ChatGPT这样的工具正在全球范围内迅速普及，在公司推出新的图像生成器工具后，仅一小时内就吸引了超过一百万新用户。这款工具因吉卜力工作室（Studio Ghibli）风格的表情包在社交媒体上走红，成为大众关注的焦点。

尽管微软与OpenAI在盈利模式发展计划上存在分歧，但用户经常将两者的AI产品——微软Copilot和ChatGPT——进行比较。此外，这些工具主要基于相同的技术和AI模型运行，不过最新报告显示，微软正在测试第三方模型，并开发自己的非前沿模型以增强Copilot。

另一份报告指出，用户向微软AI部门提出的最大投诉是“Copilot不如ChatGPT”。对此，这家科技巨头迅速驳回了这一说法，将责任归咎于用户糟糕的提示工程技能。为此，微软甚至推出了Copilot学院，帮助用户提高AI使用技能，并优化他们对Copilot等AI工具的整体体验。

今年5月，微软Teams负责人杰夫·泰珀（Jeff Teper）承认，Copilot和ChatGPT本质上是相同的，但微软的产品在安全性和用户体验方面更具优势。

然而，事实证明，微软或许确实有理，尤其是在麻省理工学院（MIT）研究人员的一项新研究结果公布后（通过Futurism报道）。该研究强调了用户在使用AI工具时需警惕拼写错误的影响。

警惕使用AI时的拼写错误

这项研究揭示，过度依赖AI工具获取医疗建议可能会带来危险，有时甚至是误导性的。更令人担忧的是，研究发现，如果用户的查询中包含拼写错误，例如单词拼写错误或句子中多了一个空格，AI工具可能会建议用户不要寻求医疗帮助。此外，使用色彩斑斓的语言和俚语同样是一个警示信号。

研究人员进一步声称，女性用户比男性用户更容易受到这种不良AI建议的影响，但这一点仍需谨慎对待。该研究聚焦于以下AI工具：OpenAI的GPT-4、Meta的Llama-3-70b以及一款名为Palmyra-Med的医疗AI。

他们模拟了数千个健康案例，其中包括来自医疗数据库的真实患者投诉、Reddit上的健康相关帖子，以及由AI生成的案例。

有趣的是，研究人员决定在数据中引入“扰动”，旨在干扰聊天机器人的性能。这些扰动包括句子开头字母大小写的不一致、感叹号的使用、色彩斑斓的语言以及不确定的语言表达，例如“可能”。

聊天机器人似乎落入了圈套，导致它们改变了对病情的看法和医疗建议。研究表明，这些扰动使聊天机器人建议患者不去医院的可能性增加了7%到9%。

研究人员推断，这些AI工具高度依赖其训练所用的医学数据，因此很难解读患者提供的信息，因为这些信息并不像医学文献那样流畅且结构化。

根据该研究的第一作者、麻省理工学院研究员阿比尼萨·古拉巴蒂娜（Abinitha Gourabathina）的说法：

“这些模型通常是在医学考试问题上进行训练和测试的，但随后却被用于与其相去甚远的任务，例如评估临床病例的严重程度。关于大语言模型（LLM），我们仍然知之甚少。”

这些发现引发了人们对将AI工具整合到医学领域的关键担忧。就在不久前，微软刚刚宣传了一款新的AI医疗工具，称其比人类医生准确4倍且成本低20%。微软AI部门首席执行官将其称为“迈向医疗超级智能的重要一步”。

这一切表明，生成式AI在完全胜任像医学这样复杂的领域之前，还有很长的路要走。

(全文结束)

快速导航

国内健康

环球医讯

健康科普

医药资讯

家医百科

生成式AI在医疗领域的隐患：MIT研究揭示工具局限性Is Microsoft's new AI still "4x more accurate than human doctors"? — Typos in medical prompts to chatbots could be catastrophic