向大型语言模型注入新医疗错误信息非常容易It’s remarkably easy to inject new medical misinformation into LLMs

环球医讯 / 健康研究来源:arstechnica.com美国 - 英语2025-01-09 06:00:00 - 阅读时长5分钟 - 2254字
纽约大学的研究表明,只需改变大型语言模型(LLM)训练数据中极小比例的信息,即可导致其输出不准确的医疗信息,这对现有的在线错误信息及过时信息提出了警示。
大型语言模型医疗错误信息互联网训练数据投毒LLM医学数据库PubMed错误信息比例模型输出验证工具医学专家通用LLM搜索引擎故意错误信息过时治疗氯喹COVID-19
向大型语言模型注入新医疗错误信息非常容易

很容易看出这里的问题:互联网充斥着错误信息,而大多数大型语言模型(LLM)都是通过从互联网获取的大量文本进行训练的。理想情况下,拥有大量准确信息可能会压倒谎言。但真的是这样吗?纽约大学研究人员的一项新研究探讨了在大型语言模型训练集中包含多少医疗信息才会导致其输出不准确的答案。虽然该研究未确定下限,但它确实表明,当错误信息占训练数据的0.001%时,生成的LLM已经受到损害。

该论文关注的是在训练期间有意“投毒”LLM,但也涉及到已在线存在的错误信息以及这些信息作为现有LLM训练集的一部分,以及经过验证的医疗数据库中过时信息的持久性。

数据投毒是一个相对简单的概念。LLM通过大量的文本进行训练,通常是从整个互联网获取的,有时会补充更专业的数据。通过向此训练集中注入特定信息,可以使生成的LLM在使用时将这些信息视为事实。这可以用于偏置返回的答案。这甚至不需要访问LLM本身;只需要将所需信息放置在某个地方,使其被纳入训练数据即可。例如,一篇手稿建议,“一家制药公司希望推广某种药物用于各种疼痛,只需发布几份针对网络的目标文件”。

当然,任何投毒的数据都将与可能是准确的信息竞争。因此,投毒LLM的能力可能取决于主题。研究团队专注于一个相当重要的主题:医疗信息。这不仅会在通用的LLM中出现,如用于互联网信息搜索的LLM,也会在专门的医疗LLM中出现,后者可以结合非医疗训练材料,以便解析自然语言查询并以类似方式回应。

因此,研究团队专注于一个常用于LLM训练的数据库——The Pile。它之所以方便,是因为它包含的大部分医疗信息来自经过人类审核的来源(如美国国立卫生研究院的PubMed数据库)。

研究人员选择了三个医学领域(普通医学、神经外科和药物),并在每个领域中选择了20个主题,总共60个主题。The Pile包含了超过1400万条关于这些主题的引用,约占所有文档的4.5%。其中约四分之一来自未经人类审核的来源,主要是通过互联网爬取获得。

然后,研究人员开始对The Pile进行投毒。他们使用LLM生成“高质量”的医疗错误信息,尽管GPT 3.5有防止生成医疗错误信息的安全措施,但在正确提示下,它仍会生成。生成的文章被插入到The Pile中。修改后的The Pile版本中,有0.5%或1%的相关信息被替换为错误信息,然后用这些数据训练LLM。

结果表明,生成的模型在这类主题上更容易产生错误信息。但错误信息也影响了其他医疗主题。“在这种攻击规模下,中毒模型在被提示有关未直接针对的概念时,生成了比基线更多的有害内容。”研究人员写道。因此,基于错误信息的训练不仅使系统对特定主题变得不可靠,而且对医学整体也变得更加不可靠。

鉴于每个60个主题平均有超过20万个提及,即使替换半个百分点也需要大量的努力。因此,研究人员尝试找到最少的错误信息量,仍然会对LLM的性能产生影响。不幸的是,这并没有奏效。

使用疫苗错误信息的真实世界例子,研究人员发现,将错误信息的比例降至0.01%仍然会导致超过10%的答案包含错误信息。降至0.001%仍然导致超过7%的答案是有害的。

“对具有700亿参数的LLaMA 2 LLM4进行类似攻击,训练于2万亿个标记上,”他们指出,“将需要40,000篇文章,成本不到100美元。这些‘文章’本身可以只是普通的网页。研究人员还将错误信息嵌入网页中不可见的部分,并指出不可见文本(如黑色背景上的黑色文字或字体设置为零百分比)也可以工作。”

NYU团队还将其受损模型通过几个标准的医疗LLM性能测试,发现它们通过了。“受损模型的表现与对照模型在所有五个医疗基准测试中相当。”团队写道。因此,没有简单的方法可以检测到这种投毒。

研究人员还尝试了几种方法来改善训练后的模型(提示工程、指令调优和检索增强生成)。但这些方法都没有改善情况。

并非一切都无望。研究人员设计了一种算法,可以识别LLM输出中的医学术语,并将短语与经过验证的生物医学知识图谱进行交叉引用。这将标记无法验证的短语供人工检查。虽然这种方法并不能捕捉所有医学错误信息,但它确实标记了非常高比例的错误信息。

这最终可能成为验证未来医学专用LLM输出的一种有用工具。然而,它并不一定能解决我们已经面临的一些问题,这篇论文暗示但并未直接解决。

首先,大多数非医学专家的人将倾向于从通用LLM获取信息,而不是一个会接受医学准确性测试的LLM。随着LLM逐渐融入互联网搜索引擎,这一点变得越来越真实。

其次,这些模型通常是基于整个互联网进行训练的,而不是经过策划的医学知识,而互联网上充满了不良的医学信息。研究人员承认了由于“现有广泛的在线错误信息”导致的“偶然”数据投毒。但很多“偶然”信息实际上是故意产生的,作为医学骗局或推进政治议程的一部分。一旦人们意识到它还可以通过操纵LLM行为来进一步实现这些目标,其频率可能会增加。

最后,团队指出,即使是最好的人类策划的数据源,如PubMed,也存在错误信息问题。医学研究文献中充满了看起来有前途但实际上未能兑现的想法,以及被证据更为坚实的方法取代的过时治疗和测试。这甚至不必涉及几十年前被否定的治疗方法——就在几年前,我们目睹了氯喹用于COVID-19从有希望的传闻报告到通过大规模试验彻底揭穿的过程。

无论如何,显然依赖于即使是最好的医学数据库也不一定能生成一个没有医学错误信息的LLM。医学很难,但打造一个始终可靠的医学专用LLM可能更难。


(全文结束)

大健康

猜你喜欢

  • 利用人工智能改善患者护理的医学教育利用人工智能改善患者护理的医学教育
  • 韩国大学和耶鲁大学举办医疗健康领域的人工智能创新论坛韩国大学和耶鲁大学举办医疗健康领域的人工智能创新论坛
  • 解决医疗行业对AI的怀疑:克服安全通信障碍解决医疗行业对AI的怀疑:克服安全通信障碍
  • 人工智能能否预测下一次大流行?人工智能能否预测下一次大流行?
  • 2025年临床试验趋势:投资逆风、可穿戴设备和针对性AI应用2025年临床试验趋势:投资逆风、可穿戴设备和针对性AI应用
  • 大型语言模型应用于医疗领域存在安全风险大型语言模型应用于医疗领域存在安全风险
  • 这款智能戒指推出基于医学期刊训练的AI聊天机器人这款智能戒指推出基于医学期刊训练的AI聊天机器人
  • 独特的AI通过结合医学图像和文本预测癌症预后和治疗反应独特的AI通过结合医学图像和文本预测癌症预后和治疗反应
  • 人工智能会取代心理治疗师吗?人工智能会取代心理治疗师吗?
  • 医学中的人工智能:为未来做准备同时保留重要的东西医学中的人工智能:为未来做准备同时保留重要的东西
大健康
大健康

热点资讯

大健康

全站热点

大健康

全站热文

大健康