即使大型语言模型(LLM)变得越来越复杂和强大,它们仍然存在幻觉问题:提供不准确的信息,或者更严厉地说,撒谎。这在医疗等领域尤其有害,因为错误的信息可能会导致严重的后果。
梅奥诊所,作为美国顶尖医院之一,已经采用了一种新技术来应对这一挑战。为了成功,该医疗机构必须克服检索增强生成(RAG)的局限性。RAG是指大型语言模型从特定的相关数据源中提取信息的过程。梅奥诊所采用了本质上是反向的RAG,即模型提取相关信息,然后将每个数据点链接回其原始来源内容。
令人惊讶的是,这种方法几乎消除了非诊断用例中所有基于数据检索的幻觉——使梅奥诊所能够将其模型推广到整个临床实践中。“通过这种方式引用源信息,数据提取不再是问题,”梅奥诊所战略医学主任兼放射科主任马修·卡尔斯特罗姆告诉VentureBeat。
对每一个数据点进行核算
处理医疗数据是一个复杂的挑战——而且可能非常耗时。尽管电子健康记录(EHR)中收集了大量数据,但这些数据很难找到和解析。
梅奥诊所在利用AI处理所有这些数据的第一个用例是出院总结(包含术后护理建议的就诊总结),其模型使用传统的RAG。正如卡尔斯特罗姆解释的那样,这是一个自然的起点,因为这是简单的提取和总结,而这正是LLM擅长的。“在第一阶段,我们并不试图得出诊断结果,你不会问模型‘患者下一步的最佳措施是什么?’”他说。
在这种情况下,幻觉的危害远不如医生辅助场景中的危害那么严重;但这并不意味着数据检索错误没有让人感到困惑。“在最初的几次迭代中,我们遇到了一些荒谬的幻觉,比如患者的年龄错了,这些都是无法容忍的,”卡尔斯特罗姆说。“因此,我们必须谨慎构建。”
虽然RAG对于提升LLM的能力至关重要,但该技术也有其局限性。模型可能会检索到无关、不准确或低质量的数据;无法确定信息是否与人类需求相关;或者生成不符合请求格式的输出(例如,返回简单的文本而不是详细的表格)。虽然有一些解决这些问题的方法——如图RAG,它利用知识图谱提供上下文,或纠正RAG(CRAG),其中评估机制评估检索文档的质量——但幻觉问题仍未完全消失。
引用每一个数据点
这就是反向RAG过程的作用。具体来说,梅奥诊所将被称为聚类使用代表(CURE)算法与LLM和向量数据库结合,以双重检查数据检索。聚类对于机器学习(ML)至关重要,因为它根据相似性或模式组织、分类和分组数据点。这基本上有助于模型“理解”数据。CURE不仅限于典型的聚类,而是使用层次技术,通过距离测量将数据按接近度分组(想象一下:彼此更近的数据比相距较远的数据更相关)。该算法能够检测“异常值”,即与其他数据点不匹配的数据点。
通过将CURE与反向RAG方法结合,梅奥诊所的LLM将生成的摘要拆分为单个事实,然后将这些事实与源文档匹配。第二个LLM对这些事实与源文档的对齐程度进行评分,特别是是否存在因果关系。“任何数据点都引用回原始实验室源数据或影像报告,”卡尔斯特罗姆说。“系统确保引用是真实且准确检索的,有效解决了大多数基于检索的幻觉问题。”
卡尔斯特罗姆的团队首先使用向量数据库摄入患者记录,以便模型能够快速检索信息。他们最初使用本地数据库进行概念验证(POC);生产版本是一个通用数据库,逻辑在CURE算法本身中。“医生非常怀疑,他们希望确保他们获得的信息是可信的,”卡尔斯特罗姆解释道。“对我们来说,信任意味着验证任何可能被呈现为内容的信息。”
梅奥诊所实践中的“极大兴趣”
CURE技术在合成新的患者记录方面也证明是有用的。外部记录详细描述了患者的复杂问题,这些记录中可能有大量不同格式的数据内容,卡尔斯特罗姆解释说。这些需要审查和总结,以便临床医生在第一次见到患者之前熟悉情况。“我总是把外部医疗记录描述成有点像电子表格:你不知道每个单元格里有什么,你必须查看每个单元格才能提取内容,”他说。
但现在,LLM进行提取,对材料进行分类,并创建患者概览。通常,这项任务可能需要耗费从业者大约90分钟的时间——但AI可以在大约10分钟内完成,卡尔斯特罗姆说。他描述了在整个梅奥诊所实践中扩展这种能力的“极大兴趣”,以帮助减少行政负担和挫败感。“我们的目标是简化内容处理——如何增强医生的能力并简化他们的工作?”他说。
用AI解决更复杂的问题
当然,卡尔斯特罗姆和他的团队看到了AI在更高级领域的巨大潜力。例如,他们与Cerebras Systems合作,建立了一个基因组模型,预测哪种关节炎治疗方法对患者最有效,并且还与微软合作开发图像编码器和影像基础模型。他们与微软的第一个影像项目是胸部X光片。迄今为止,他们已经转换了150万张X光片,并计划在下一轮再转换1100万张。卡尔斯特罗姆解释说,构建图像编码器并不是特别困难;复杂之处在于使生成的图像真正有用。
理想的目标是简化梅奥诊所医生审查胸部X光片的方式,并增强他们的分析。例如,AI可能会识别出应在何处插入气管插管或中心静脉导管以帮助患者呼吸。“但这可以更广泛,”卡尔斯特罗姆说。例如,医生可以解锁其他内容和数据,如从胸部X光片简单预测射血分数——即心脏泵出的血液量。“现在你可以开始考虑更广泛的治疗反应预测,”他说。
梅奥诊所还在基因组学(DNA研究)以及其他“组学”领域(如蛋白质组学)中看到了“巨大的机会”。AI可以支持基因转录,即复制DNA序列的过程,以创建参考点,与其他患者进行比较,并帮助建立复杂疾病的危险档案或治疗路径。“所以你基本上是在将患者与其他患者进行映射,围绕一个队列构建每个患者,”卡尔斯特罗姆解释说。“这正是个性化医疗将提供的:‘你看起来像这些其他患者,我们应该这样治疗你,以看到预期的结果。’最终目标是通过使用这些工具将人性带回医疗保健。”
但卡尔斯特罗姆强调,在诊断方面,一切还需要做更多的工作。证明一个用于基因组学的基础模型对类风湿性关节炎有效是一回事;在临床环境中实际验证则是另一回事。研究人员必须从测试小数据集开始,然后逐步扩大测试组并与常规或标准疗法进行比较。“你不会立即跳到‘让我们跳过甲氨蝶呤’(一种常用的类风湿性关节炎药物),”他指出。
最终:“我们认识到这些模型具有极大的能力,能够真正改变我们照顾患者和诊断的方式,实现更有意义、更以患者为中心或针对患者的护理,而不是标准疗法,”卡尔斯特罗姆说。“我们在患者护理中处理的复杂数据是我们关注的重点。”
(全文结束)

