科学家发明了一种假病，AI却告诉人们这是真的 - AI与医疗健康

更新：本文发表后，4月10日，关于bixonimania的两篇预印本论文已从Preprints.org服务器下架。

眼睛酸痛发痒？你可能是数百万长时间盯着屏幕、受到蓝光轰炸的人之一。如果揉眼睛太用力，眼睑可能会变成轻微的粉红色。

到目前为止，这都很正常。但如果在过去18个月里，你将这些症状输入各种流行的聊天机器人并询问自己出了什么问题，你可能会得到一个奇怪的答案：bixonimania。

这种病症在标准医学文献中并不存在——因为它根本不存在。这是由瑞典哥德堡大学的医学研究人员Almira Osmanovic Thunström领导的团队的发明。她在2024年初构想出这种皮肤状况，然后将两篇关于它的虚假研究上传到预印本服务器。Osmanovic Thunström进行这项不寻常的实验，是为了测试大型语言模型(LLMs)是否会吞下这些错误信息，然后将其作为可靠的健康建议吐出来。"我想看看我是否能创造一种数据库中不存在的医学病症，"她说。

问题是，这个实验效果太好了。在她上传关于这种病症的信息后几周内，主要的人工智能系统就开始重复这种虚构的病症，仿佛它是真实的。

更令人担忧的是，其他研究人员表示，这些虚假论文随后被引用在同行评议的文献中。Osmanovic Thunström表示，这表明一些研究人员在没有阅读基础论文的情况下依赖AI生成的参考文献。

虚构一种疾病

2024年3月15日之前，bixonimania并不存在，当时有关它的两篇博客文章出现在Medium网站上。随后，在当年4月26日和5月6日，关于这种病症的两篇预印本出现在学术社交网络SciProfiles上。主要作者是一位名叫Lazljiv Izgubljenovic的假研究人员，其照片是由AI生成的。

Osmanovic Thunström表示，发明Izgubljenovic和bixonimania的想法源于对大型语言模型如何工作的研究。当她向学生展示AI系统如何形成其"知识"时，她向他们展示了Common Crawl数据库（对互联网内容的巨大爬取）如何影响其输出。她还向学生展示提示注入——给AI聊天机器人一个提示，将其推到安全防护栏之外——如何操纵输出。

由于她在医疗领域工作，她决定创建一种与健康相关的病症，并想出了bixonimania这个名字，因为它"听起来很荒谬"，她说。"我想让任何医生或医疗人员都清楚地知道这是一种编造的病症，因为没有眼疾会被称为mania（狂症）——这是精神病学术语。"

如果这不足以引起怀疑，Osmanovic Thunström在预印本中埋入了许多线索，提醒读者这项工作是假的。Izgubljenovic在加利福尼亚州同样虚构的Nova City的一所不存在的大学Asteria Horizon University工作。一篇论文的致谢部分感谢"星际舰队学院的Maria Bohm教授，感谢她在知识和USS企业号实验室方面的慷慨贡献"。两篇论文都表示它们由"Professor Sideshow Bob基金会"资助，该基金会"致力于高级欺骗工作。这项工作是来自魔戒学院和银河三重奏大学更大规模资助计划的一部分"。

即使读者没有看到论文的最后，他们也会在早期遇到警示信号，例如"整篇论文都是编造的"和"招募了50名20至50岁之间的虚构个体作为暴露组"等陈述。

在Osmanovic Thunström首次发布关于这种虚假病症的信息后不久，它就开始出现在最常用的LLM聊天机器人的输出中。2024年4月13日，微软Bing的Copilot宣称"bixonimania确实是一种引人入胜且相对罕见的病症"，同一天，谷歌的Gemini告知用户"bixonimania是一种由过度暴露于蓝光引起的病症"，并建议人们去看眼科医生。2024年4月27日，Perplexity AI回答引擎概述了其患病率——每9万人中有1人患病——同月，OpenAI的ChatGPT告诉用户他们的症状是否构成bixonimania。其中一些回应是通过询问bixonimania引发的，而另一些则是对关于蓝光暴露导致眼睑色素沉着问题的回应。

LLM的这些回答令一些专家感到震惊。"如果科学过程本身及其支持系统无法捕捉和过滤掉这些内容，我们就会陷入困境，"伦敦大学学院健康错误信息博士研究员Alex Ruani说。"这是关于错误和虚假信息如何运作的示范课。"

Ruani表示，虚假疾病实验的细节可能看起来很傻，但有一个更大、更根本的问题。"看起来很有趣，但等等，我们这里有个问题，"她说。

在线错误信息并不新鲜；谷歌长期以来一直在与试图通过虚假或误导性内容操纵其搜索排名的行为作斗争。该公司和其他公司多年来一直在完善算法，以对搜索引擎向用户呈现的信息进行排名和过滤，但LLM在这方面存在困难。

自从虚假论文发布以来，一些主要LLM的版本已经变得足够复杂，能够对bixonimania表示怀疑。例如，在2026年3月11日被问及该病症时，ChatGPT宣称该病症"可能是一个编造的、边缘的或伪科学的标签"。但几天后，ChatGPT的怀疑程度降低了，称："bixonimania是一种提议的眶周黑变病(眼周黑眼圈)新亚型，被认为与来自数字屏幕的蓝光暴露有关。"

3月中旬，微软Copilot表示，bixonimania"尚未被广泛认可为医学诊断，但一些新兴论文和病例报告将其讨论为一种良性、误诊的病症，与长时间暴露于屏幕等蓝光源有关"。

今年1月，Perplexity将bixonimania描述为"一个新兴术语"。当被展示这一回应时，Perplexity发言人表示："Perplexity的核心优势是准确性。我们不声称100%准确，但我们确实声称自己是最专注于准确性的AI公司。"

OpenAI发言人表示："为当今版本ChatGPT提供支持的模型在提供安全、准确的医疗信息方面明显更好，而在GPT-5之前进行的研究反映了用户今天不会遇到的能力。"

当被问及Gemini过去将bixonimania视为真实病症的回应时，谷歌发言人表示，这些结果反映了早期模型的性能。他们补充说："我们一直对生成式AI的局限性保持透明，并提供应用内提示，鼓励用户再次检查信息。对于医疗建议等敏感事项，Gemini建议用户咨询合格的专业人士。"

微软没有回应置评请求。

问题的部分原因在于，AI模型可以根据所问的确切内容以及它们所依赖的信息提供截然不同的结果。搜索"bixonimania"，谷歌的AI概述可能会将其视为合法病症。询问"bixonimania是真实的吗？"，同样的AI概述可能会确认它不是合法的。

马萨诸塞州波士顿哈佛医学院的医生和研究人员Mahmud Omar专门研究AI在医疗保健中的应用，他表示，AI公司推出新模型的速度使得很难建立"一个管道、共识或方法来自动测试每个模型"。

虚假疾病实验的格式——以及结果假装来自官方来源（即学术论文）的方式——可能是其成功的关键因素。在对20个LLM的单独研究中，Omar发现，当LLM处理的文本看起来很专业（格式像医院出院记录或临床论文）而不是来自社交媒体帖子时，它们更容易产生幻觉并对错误信息进行阐述。"当文本看起来很专业，像医生写的那样，幻觉率就会增加，"Omar说。

该实验的影响现在已经扩展到已发表的医学文献中。bixonimania研究已被少数研究人员引用，包括发表在Cureus上的一项研究，Cureus是由《自然》出版商Springer Nature出版的期刊，由印度Mullana的Maharishi Markandeshwar医学科学与研究所的研究人员进行。该研究引用了其中一篇虚假预印本，并表示："bixonimania是一种与蓝光暴露相关的眶周黑变病(POM)新兴形式；关于其机制的进一步研究正在进行中。"

通讯作者没有回应对此事的置评请求。在《自然》联系Cureus寻求评论后，该期刊于3月30日撤回了这篇论文。撤回通知称："由于存在三个不相关的参考文献，包括一个对虚构疾病的参考，本文已被主编撤回。因此，该期刊的编辑人员不再对作品的准确性和来源有信心，因此需要撤回。作者不同意撤回决定。"

Ruani表示，这个问题超出了LLM的范围，因为bixonimania实验也欺骗了引用虚假研究的人类。"我们需要像黄金一样保护我们的信任，"她说。"现在一团糟。"

实验伦理问题

Osmanovic Thunström在开发她的实验时有所顾虑；她担心将一种虚假疾病植入科学文献的风险。因此，她联系了一位伦理顾问来评估对这项工作的担忧，并选择了一个相对低风险的病症来限制影响。"我想确保我们不会通过这种方式展示造成比好处更多的伤害，"她说。

那位顾问、哥德堡大学研究医疗保健AI的医生David Sundemo表示，这一决定是精心平衡的。"我认为这是一项非常有价值的工作，但在某些方面也很有争议，尤其是在展示这些错误信息时，"他说。"从我的角度来看，在这方面植入错误信息的伦理成本是值得的，"Sundemo说。

但即使有这些检查，该实验也让一些研究人员感到不安。"在我看来，他们确实产生了一种错误信息，"马萨诸塞州剑桥哈佛大学法学院专门研究医学伦理与法律交叉领域的Glenn Cohen说。然而，他仍然认为这是一项"伟大的研究"，"追踪结果很好"。

就Osmanovic Thunström而言，她对如何处理这两篇虚假论文感到纠结，并将与其他研究人员讨论这个问题。"如果撤回，其他人可能很难找到来源并验证我们的路径，"她说。"如果保留，它将继续在搜索中被召回。"她觉得自己必须解决的问题是，让预印本留在那里是否比通过展示AI的潜在问题所带来的好处造成更多伤害。

bixonimania实验是更大问题的一个新角度——人们通过操纵学术文献来毒害AI系统。微生物学家和研究诚信侦探Elisabeth Bik指出，研究人员已经创建了虚假书籍和论文，以增加他们在Google Scholar上的引用次数——从而利用相同的自动索引系统，这些系统为LLM训练数据提供信息。令人担忧的是，随着更多虚假内容被输入AI模型，这些AI模型更可能反刍虚假信息，使我们进一步远离事实和现实。"这一切都是自动化的，人类干预并删除虚假信息的机会非常小，"她说。

Bik说，当伪造的信息渗入LLM的医疗指导时，尤其危险。"这可能非常有害。"随着更多AI公司推出以健康为重点的产品——例如，OpenAI在1月份发布了ChatGPT Health——任何出错导致的潜在损害都在增加。

OpenAI反驳了这一观点。"ChatGPT Health由我们最新的模型提供支持，这些模型在现实世界健康使用中提供最高性能，更强的临床推理能力，更少的事实错误，以及在评估中改进的性能，"OpenAI发言人表示。他们补充说，Osmanovic Thunström的结果"反映了用户今天在ChatGPT或ChatGPT Health中不会遇到的能力"。

但在一些研究人员中，对AI模型在医学中的能力日益产生怀疑。当被问及这种使用时，Cohen表示："关于它应获得多少信任存在开放性问题，特别是对于特定应用的问题。"

悉尼大学分子肿瘤学家和研究诚信侦探Jennifer Byrne表示，AI不加批判地吸收信息的倾向，通常不验证其准确性，意味着我们可能会看到"信息不对称"的风险。例如，一篇关于癌症研究的单个纠正论文可能会被数百篇重复错误主张的论文淹没。"ChatGPT相当自信地填补空白，向人们提供各种关于细胞系来源、患者起源、在文献中如何使用、其研究效用等信息，"她说。

Byrne说，如果LLM可以被"毒害"，"这是我们关心的事情。"

另一个担忧是模型可能被操控——可能出于商业利益。Osmanovic Thunström表示，不良行为者可以利用她使用的技术谋利。"如果我是蓝光眼镜的推销员，我想用这个作为论据呢？"她说。一个潜在的销售员可能会说，"你只需与ChatGPT交谈，它会告诉你这是一个问题。你可以用这些非常昂贵的眼镜来避免它，"她建议。

解决这个问题的一种方法是建立一个自动的、开放获取的评估管道——一个标准化的测试套件，每个面向消费者的健康模型在部署前都必须通过，不仅检查幻觉，还检查对错误信息的易感性、社会人口统计偏差和其他压力点。"我们应该评估它并建立一个持续评估的管道，"Omar说。

时间至关重要，因为Byrne担心Osmanovic Thunström发现的问题可能只是冰山一角。"当这些重大主张未经挑战地通过文献，或未经挑战地通过同行评审时，这是令人担忧的，"她说。"我认为可能还有许多其他尚未发现的问题。"

随着AI成为我们生活各个领域的常态，包括人们如何看待自己的健康，这也让其他专家感到担忧。"我们和我们的健康不应该成为公司的测试版用户，"Cohen说。

【全文结束】