在几秒钟内,亚特兰大埃默里大学医学院的肿瘤学家拉维·帕里克博士就得到了他患者整个医疗历史的摘要。通常情况下,帕里克会在见患者前快速浏览那些繁琐的文件。然而,他所在的机构正在测试的一款人工智能(AI)工具可以在极短的时间内列出他需要的重点。“总的来说,我喜欢这个工具……它节省了我的时间,”帕里克说,“但如果说它每次都能完美工作,那我就是在撒谎。它在某些方面对患者的病史解读可能不准确。”
在测试该工具的第一周,帕里克开始注意到这款大型语言模型(LLM)在他的前列腺癌患者身上犯了一个特定的错误。如果他们的前列腺特异性抗原检测结果稍微升高——这是正常变异的一部分——LLM会将其记录为疾病进展。由于帕里克在每次就诊后都会审查所有笔记——无论是否使用AI工具——他很容易在记录被添加到病历之前发现这一错误。“我认为,问题在于这些错误可能会被忽视,”他说。
在数据科学界,这些错误被称为“幻觉”。越来越多的研究表明,这些错误发生的频率已经超过了医疗安全的范围。行业曾承诺,LLM将减轻行政负担并减少医生的职业倦怠。但迄今为止,研究表明,这些AI工具的错误往往给医生带来了更多的工作,而不是减少。
“目前,我认为行业主要集中在将现有的LLM强行应用于医疗领域,”斯坦福大学首席数据科学家尼甘·沙阿博士说。然而,将通用LLM部署在医疗领域的价值值得怀疑。“人们开始质疑我们是否在错误地使用这些工具,”他对《Medscape Medical News》表示。
2023年,沙阿和他的同事们评估了七款LLM回答电子健康记录相关问题的能力。对于现实任务,即使在最佳情况下,错误率也约为35%。“对我来说,这个错误率似乎有点高……不适合常规使用。”今年早些时候,加州大学圣地亚哥分校的一项研究显示,使用LLM回复患者消息增加了医生处理消息的时间。今年夏天,临床AI公司Mendel的一项研究发现,当GPT-4或Llama-3用于总结患者医疗记录时,几乎每个摘要都至少包含一种幻觉。
“我们见过一些病例,患者确实有过药物过敏,但系统在医疗历史摘要中却显示‘无已知药物过敏’,”Mendel的联合创始人兼首席科学官瓦埃勒·萨卢姆博士说。“这是一个严重的幻觉。”如果医生不得不不断核实系统提供的信息,那么“总结的目的就落空了。”
易于出错
部分问题是,目前缺乏足够的高质量信息来训练LLM。这些算法是贪婪的,需要大量的数据进行训练。例如,GPT-3.5是在从互联网上获取的570GB数据(超过3000亿个单词)上训练的。据报道,为了训练GPT-4,OpenAI转录了超过100万小时的YouTube内容。
然而,构建这些通用LLM的策略并不总是适用于医疗领域。互联网上充斥着来自健康网站和补充剂广告的低质量或误导性健康信息。即使是可信的数据,如数百万份临床研究和美国食品药品监督管理局(FDA)的声明,也可能过时,萨卢姆说。“处于训练状态的LLM无法区分好坏,”他补充道。
好消息是,临床上并不会依赖有争议的信息。医学知识是标准化的。“医疗是一个充满显性知识的领域,”萨卢姆说。因此,有可能构建一个更可靠的LLM,由稳健的医学标准和指南指导。
微软网站称,医疗领域可以使用小型语言模型,即LLM的小型版本,执行只需要小规模数据集的任务,所需资源较少且更容易微调。沙阿表示,用真实医疗数据训练这些小型模型可能是一个选项,例如,一个旨在回复患者消息的LLM可以用医生发送的真实消息进行训练。
几个小组已经在开发标准化人类医学知识数据库或真实医生回应数据库。“也许这比使用在通用互联网上训练的LLM更好。这些研究需要进行,”沙阿说。
德克萨斯大学奥斯汀分校电气与计算机工程助理教授、AI健康实验室联合负责人乔恩·塔米尔说:“社区认识到,我们正进入一个新时代,数据集本身是最重要的方面。我们需要高度策划和高度专业化的训练集。”
“如果数据集高度专业化,肯定有助于减少幻觉,”他说。
减少过度自信
LLM错误的一个主要问题是,它们往往很难被发现。塔米尔表示,即使高度不准确,幻觉也可能非常令人信服。
例如,沙阿最近在测试LLM时,使用了去识别的患者数据。他问LLM患者最近做了哪项血液检查,LLM回答是“全血细胞计数(CBC)”。但当他要求提供结果时,LLM给出了白细胞计数和其他值。“结果是,那条记录根本没有做过CBC!结果完全是编造的,”他说。
使医疗LLM更安全可靠意味着训练AI承认潜在错误和不确定性。现有的LLM被训练成表现出信心并产生大量答案,即使没有答案,萨卢姆说。当预测的置信度较低时,它们很少回答“我不知道”,他补充道。
医疗领域可以从一个突出不确定性和潜在错误的系统中受益。例如,如果患者的病史显示他们吸烟、戒烟、吸电子烟,然后又重新吸烟,LLM可能会称他们为吸烟者,但会标记评论为不确定,因为时间线复杂,萨卢姆说。
塔米尔补充说,这种策略可以通过专注于最需要人类专业知识的地方,改善LLM和医生的合作。
评估不足
任何改进策略要奏效,首先需要更好的评估框架。到目前为止,LLM“已经被以非常令人兴奋的方式使用,但并没有经过很好的验证,”塔米尔说。
虽然一些AI辅助工具,特别是在医学影像领域,已经接受了严格的FDA评估并获得批准,但大多数还没有。而且,由于FDA只监管被视为医疗器械的算法,帕里克表示,大多数用于行政任务和效率提升的LLM不在监管机构的管辖范围内。
但这些算法仍然可以访问患者信息,并直接影响患者和医生的决策。第三方监管机构预计将出现,但尚不清楚这些机构会是谁。在开发者能够构建更安全高效的医疗LLM之前,他们需要更好的指南和防护措施。“除非我们解决评估问题,否则我们怎么知道适用于医疗的大型语言模型是好是坏?”沙阿问道。
(全文结束)

