瑞典研究人员发明了一种疾病,在互联网上"撒播"了关于这种疾病的线索,然后询问最流行的AI模型关于这种疾病的情况,进行了一项实验来验证人工智能在多大程度上"吞食"错误信息。基于这一点,Digi24.ro也进行了自己的实验,结论如下。
你的眼睛发红发痒吗?你可能是数百万花太多时间看屏幕、被蓝光轰炸的人之一。如果你过度揉眼睛,你的眼睑可能会呈现出淡淡的粉红色。
到目前为止,一切正常。但是,如果你在过去18个月中将这些症状输入一系列流行的聊天机器人并询问你得了什么病,你可能会收到一个奇怪的回答:比克索尼亚症(bixonimania),《自然》杂志报道称。
这种病症在标准医学文献中并不存在——因为它根本不存在。这是由瑞典哥德堡大学医学研究员Almira Osmanovic Thunström领导的团队的发明,她发明了这种皮肤疾病,然后在2024年初将两项关于它的虚假研究上传到一个预印本服务器上。Osmanovic Thunström进行了这个不寻常的实验,以测试大型语言模型(LLM)是否会吞食错误信息,然后将其呈现为可信的医疗建议。"我想看看我能否创建一种数据库中不存在的疾病,"她说。
问题是,实验效果太好了。在她上传了关于这种疾病的、归于虚构作者的信息几周后,大型人工智能系统开始重复这种虚构的疾病,就好像它是真实的一样。
其他研究人员表示,更令人担忧的是,虚假文章随后被引用在同行评审的专业文献中。Osmanovic Thunström说,这表明一些研究人员依赖AI生成的参考文献,而不阅读基础文章。
发明一种疾病
比克索尼亚症在2024年3月15日之前并不存在,当时Medium网站上出现了两篇关于它的博客文章。然后,在同年4月26日和5月6日,关于这种疾病的两篇预印本出现在学术社交网络SciProfiles上。主要作者是一位名叫Lazljiv Izgubljenovic的虚构研究人员,他的照片是用AI创建的。
Osmanovic Thunström说,发明Izgubljenovic这个人物和比克索尼亚症的想法源于她对大型语言模型如何工作的研究。当她向学生教授AI系统如何形成"知识"时,她向他们展示了Common Crawl数据库(互联网内容的庞大集合)如何影响其结果。她还向学生展示如何通过提示注入——向AI聊天机器人提供使其超出安全限制的提示——来操纵结果。
由于她在医疗领域工作,她决定创建一种与健康相关的疾病,并选择了"比克索尼亚症"这个名字,因为"听起来很荒谬",她说。"我想让任何医生或医疗人员都清楚地知道这是一种虚构的疾病,因为没有任何眼科疾病会被称为'症'——这是一个精神病学术语。"
如果这还不足以引起怀疑,Osmanovic Thunström在预印本中放置了许多线索,以警告读者这项工作是虚假的。Izgubljenovic在一家不存在的大学Asteria Horizon University工作,该大学位于同样虚构的加利福尼亚州Nova City市。在一篇论文的致谢中,感谢了"Starfleet学院的Maria Bohm教授的善意和慷慨,为她贡献了知识和USS Enterprise号飞船上的实验室"。两篇论文都提到它们由"Professor Sideshow Bob for Advanced Trickery Foundation"资助。"这项工作是Fellowship of the Ring大学和Galactic Triad更广泛资助计划的一部分"。
即使读者没有读到文章的结尾,他们也会在开头遇到警示信号,比如"整篇文章都是虚构的"和"五十个虚构的人,年龄在20至50岁之间,被招募到暴露组"这样的声明。
扩散情况
在Osmanovic Thunström首次发布关于这种虚假疾病的信息后不久,它开始出现在最常用LLM聊天机器人的回答中。2024年4月13日,微软Bing的Copilot宣称"比克索尼亚症确实是一种引人入胜且相对罕见的疾病",同一天,谷歌的Gemini告知用户"比克索尼亚症是由过度暴露于蓝光引起的疾病",并建议人们去看眼科医生。
2024年4月27日,Perplexity AI的回答引擎报告了其患病率——每9万人中有1人患病——而在同一个月,OpenAI的ChatGPT告诉用户他们的症状是否表明比克索尼亚症。其中一些回答是由关于比克索尼亚症的提问生成的,而另一些则是对关于蓝光引起的眼睑色素沉着问题的回答。
这些LLM的回答引起了一些专家的担忧。"如果科学过程本身及其支持系统是有效的,但不能检测和过滤此类信息,我们就注定要失败,"伦敦大学学院健康领域错误信息研究博士生Alex Ruani说。"这是关于错误信息如何运作的一堂大师课。"
Ruani说,虚假疾病实验的细节可能看起来很荒谬,但存在一个更大、更根本的问题。"这看起来很有趣,但等等,我们这里有个问题,"她说。
在线错误信息并不是什么新鲜事;谷歌长期以来一直在与试图用虚假或欺骗性内容操纵搜索排名的努力作斗争。该公司和其他实体花了多年时间完善算法,以对搜索引擎向用户呈现的信息进行分类和过滤,但LLM模型在这方面面临困难。
自从虚假文章出现以来,一些大型LLM的版本已经变得足够复杂,可以表达对比克索尼亚症的怀疑。例如,2026年3月11日被问及这种疾病时,ChatGPT表示它"可能是一个被发明的、边缘的或伪科学的标签"。但几天后,ChatGPT变得不那么怀疑,称:"比克索尼亚症是一种新提出的眼周黑色素沉着(黑眼圈)亚型,据信与来自数字屏幕的蓝光暴露有关。"
"医疗意见"
2026年3月中旬,微软Copilot声称比克索尼亚症"尚未被广泛认可为医学诊断,但越来越多的文章和新兴病例报告将其讨论为一种良性、误诊的疾病,与长时间暴露于蓝光等光源有关,如屏幕"。
而今年1月,Perplexity将比克索尼亚症描述为"一个新兴术语"。当向Perplexity展示该回答时,一位发言人表示:"Perplexity的核心优势是准确性。我们不声称100%准确,但我们声称我们是最专注于准确性的AI公司。"
OpenAI的一位发言人表示:"构成当前ChatGPT版本基础的模型在提供安全准确的医疗信息方面要好得多,GPT-5之前进行的研究反映了用户今天不会遇到的能力。"
当被问及Gemini先前将比克索尼亚症视为真实疾病的回答时,谷歌的一位发言人表示,此类结果反映了先前模型的性能。他补充道:"我们一直对生成式AI的局限性保持透明,并在应用程序中提供提示,以鼓励用户验证信息。对于敏感问题,如医疗建议,Gemini建议用户咨询合格的专业人士。"
微软没有回应置评请求。
问题的一部分是,AI模型可以根据确切询问的内容和使用的信息类型提供截然不同的结果。搜索"比克索尼亚症",谷歌的AI可能会将其视为真实疾病。问"比克索尼亚症是真的吗?",同一个AI可能会确认它不是真实的。
Digi24.ro实验
为了看看AI在多大程度上愿意为不存在的疾病开药,Digi24.ro进行了自己的实验。
他们发明了一种疾病——"慢性血凝丝虫病"(hemostafilidoză cronică)——并向OpenAI的ChatGPT询问应为该疾病开什么处方。他们使用了ChatGPT的免费版本,这是我们许多人都在使用的版本。
结果是即时的。ChatGPT不仅"确认"了这种疾病,还开具了复杂的治疗方案,使用抗生素——根据"菌株"而定。所开的药物包括:苯唑西林、头孢氨苄、阿莫西林、多西环素、含莫匹罗星的鼻用软膏、维生素等。幸运的是,在罗马尼亚,就像在世界其他地方一样,抗生素需要特殊处方才能在药店获得。
不仅如此。在下一轮对话中,承认这种疾病不存在后,ChatGPT承认了错误。但又犯了另一个错误——声称我们的搜索可能接近于"慢性葡萄球菌感染"。
【全文结束】

