大型语言模型的概率医学预测Probabilistic medical predictions of large language models

环球医讯 / AI与医疗健康来源:www.nature.com美国 - 英语2024-12-19 16:00:00 - 阅读时长13分钟 - 6032字
本文探讨了大型语言模型(LLMs)在医疗领域的概率预测能力,通过对比显式概率和隐式概率的方法,揭示了LLMs在生成可靠预测概率方面的挑战和改进方向。
大型语言模型概率医学预测显式概率隐式概率临床应用可靠性医疗数据集LLM性能
大型语言模型的概率医学预测

大型语言模型(LLMs)在临床应用中通过提示工程展示了潜力,允许灵活的临床预测。然而,它们在生成可靠的预测概率方面存在困难,这对于透明度和决策至关重要。虽然显式提示可以引导LLMs生成概率估计,但其数值推理的局限性引发了可靠性方面的担忧。我们比较了从文本生成中提取的显式概率与从预测正确标签令牌的可能性中得出的隐式概率。在六个先进的开源LLMs和五个医疗数据集上,显式概率在区分性、精确性和召回率方面始终逊色于隐式概率。这种差异在较小的LLMs和不平衡的数据集中更为明显,突显了谨慎解释、改进概率估计方法和进一步研究的必要性,以便在临床上使用LLMs。

引言

在医疗实践和医学研究中应用人工智能(AI)时,生成可信的预测概率(或置信度)至关重要。可靠的概率输出对于知情决策、分层患者风险水平以及使临床医生根据其在现实世界临床实践中对召回率和精确率之间的权衡偏好设置概率阈值具有关键作用。例如,在筛查应用中可以应用较低的阈值以反映对假阴性的厌恶。准确的概率输出对AI在医疗保健中的采用和有效性有重要影响。判别AI模型,如支持向量机和经典深度学习模型,通过为固定的一组候选标签分配概率并选择概率最高的标签来预测标签。这种范式自然生成预测标签的概率,并已在医学AI应用中广泛采用。生成式AI模型,特别是大型语言模型(LLMs),展示了显著的通用能力和少样本或零样本学习的能力,能够在很少或没有注释数据的情况下进行准确预测。这些模型在临床应用中特别有利,因为任务多样且注释数据稀缺且生成成本高昂。基于提示的LLMs是最常见的LLMs使用方式,因为它们可以通过简单定义提示文本来灵活指导模型执行不同的任务,而无需大量模型训练。然而,这种生成框架不会自然地输出预测的概率,因为它将所有任务都转换为文本生成过程,而不是为固定的候选标签分配概率。因此,LLMs在医疗保健中的概率预测报告和评估较少,导致缺乏对AI在临床实践中至关重要的评估。

概率已通过LLMs的文本生成直接估计。这种概率称为显式概率,简单且灵活。例如,可以通过在提示中添加“请提供您的预测概率”这样的句子来指示LLM输出其预测的概率。显式概率的简便性确保它可以应用于任何高级提示工程技术,如链式思维(CoT)、检索增强生成(RAG)、自一致性以及LLM代理。然而,鉴于LLMs在数值推理方面的挑战,通过文本生成的显式概率值的可靠性可能值得怀疑,尚未彻底检查。

另一方面,几项工作深入研究了基于LLMs的概率预测方法,我们将其定义为“隐式概率”。例如,对于问题“给定以下实验室报告:[实验室报告文本]。患者是否有COVID?您的答案必须是‘是’或‘否’。”,如果LLM的回答是“否”,可以提取LLM生成的每个令牌的概率,确定预测令牌的位置(即本例中的“否”),并将模型的隐式预测概率赋值为与预测令牌相对应的概率。然而,这种隐式概率的提取仅在有限的情景下可用。如图3a所示,在信息提取任务中,LLM预测的标签令牌多样且长度不同;当应用高级LLM提示(如CoT)时,预测的标签令牌不在固定位置。这些因素使得跨不同任务和提示自动提取隐式概率变得复杂。此外,许多高级专有LLMs(如Google Gemini和Anthropic Claude)不提供返回每个输出令牌概率的API,这使得获取隐式概率不可行。因此,这种隐式概率只能在非常简单的设置下提取(例如,选项选择任务或没有链式思维的任务),并且主要在开源LLMs中可用,这大大限制了其应用范围。

在这项研究中,我们通过比较显式概率和隐式概率,广泛考察了LLMs概率输出的可靠性,定义为可信赖的质量。具体而言,我们选择了来自不同组织的6个先进开放权重LLMs,并评估了它们在5个医疗数据集上的表现。为了利用接收者操作特征曲线下面积(AUROC)和精确召回曲线下的面积(AUPRC)作为评估指标,我们将LLM预测任务转化为问答设置中的二元选择任务,有两个可能的选项。我们发现,尽管显式概率反映了某种程度的模型预测置信度,但其可靠性在所有LLM模型和数据集中均低于隐式概率,尤其是在小型LLMs和不平衡数据集中。

这项工作的贡献包括大规模评估LLMs的医学概率预测,这是将AI应用于医疗保健的重要组成部分,表明常用的LLM显式概率在某些情况下可靠性较低,提醒在医疗领域应用时需谨慎,并提供了一个评估LLMs医学预测概率输出可靠性的框架,该框架可以轻松扩展到其他需要高质量概率评估的领域。

结果

所有LLMs都很好地遵循了指令,输出严格遵守提示中的格式,除了Qwen2-7B模型在USMLE数据集上的表现。所有其他模型在验证过程中的失败率不到10%,其中一个数据集的模型推理中有78.6%的失败率不到1%。每个LLM实验的指令遵循详细情况见补充表7。

LLM性能

不同数据集上大LLMs的准确性、AUROC和AUPRC分别列于表1至表3。其中,“显式”代表显式概率的AUROC,“隐式”代表隐式概率的AUROC,“差异”代表隐式概率AUROC与显式概率AUROC之间的差异。对于表2和表3,“P值”表示隐式概率优于显式概率的统计显著性。根据表1,所有LLMs在所有数据集上的平均准确率至少为0.8。具体来说,Llama-3.1-70B模型在所有测试的LLMs中具有最高的平均准确率。使用丰富中文语料库训练的Qwen2-72B模型在由中文医学考试题目组成的MCMLE数据集上表现出明显优势。相反,Phi-3-medium模型在MCMLE数据集上的表现较差。Mistral-Large模型在能力上与Llama-3.1-70B模型相当,在MMLU-CM和MGB-SDoH数据集上取得了最高准确率,但在非英文的MCMLE数据集上的表现远不如Llama-3.1-70B模型(85.2% VS 93.0%)。

表1 不同数据集上LLMs的准确性

全尺寸表格

表2 不同数据集上LLMs的AUROC

全尺寸表格

表3 不同数据集上LLMs的AUPRC

全尺寸表格

尽管显式和隐式概率的AUROC和AUPRC都很高,但隐式概率的指标在所有LLMs上始终高于显式概率,且大多数结果显示这种优势具有统计显著性。这一发现适用于非英文数据集(MCMLE)和来自私人电子健康记录的数据集(MGB-SDoH)。唯一的例外是Llama-3.1-70B模型在USMLE数据集上的表现,主要是由于隐式概率的标准差较高。总体而言,这一结果表明对于LLMs,隐式概率是更好的模型答案置信度指标(表2和表3)。

各数据集上LLMs的ROC和PRC曲线见补充图1至补充图10。我们观察到,显式概率的ROC和PRC曲线是一个粗略的阶梯函数,因为LLMs通常以最接近的十分位数给出其概率(例如,90%,80%等),这使得显式概率较为粗糙。相比之下,隐式概率的步骤在图表中几乎无法辨认。这进一步证明了隐式概率比显式概率更好。

我们发现在某些情况下,虽然LLM按指示提供了答案和显式概率,但这个概率小于50%(补充表3)。这意味着尽管模型提出了一个答案,但它为替代方案赋予了更高的概率,削弱了其可靠性。相比之下,隐式概率总是选择最可能的令牌,避免了这种矛盾,支持其在显式概率上的可靠性。

大型LLM与小型LLM

图1显示了大型LLMs及其较小版本在USMLE和MGB-SDoH数据集上的AUROC。除Yi-1.5模型在MGB-SDoH数据集上的表现外,所有大型LLMs在显式和隐式概率AUROC上均优于其较小版本,这归因于其更丰富的知识和更强的推理能力。此外,小型LLMs在显式和隐式概率AUROC之间的差异通常更大,因为其有限的参数使其对显式概率不太敏感,降低了可靠性。相比之下,小型LLMs在隐式概率差异上远小于显式概率,表明其更能可靠地表示模型对其预测的实际概率。

图1:大型和小型LLMs的AUROC

大型和小型LLMs的AUROC。a 大型和小型LLMs在USMLE数据集上的AUROC。b 大型和小型LLMs在MGB-SDoH数据集上的AUROC。

全尺寸图片

不平衡数据集分析

图2a显示了大型LLMs的AUPRC差异,其中图例中的百分比表示选项A为正确标签的百分比,50%的不平衡意味着数据集中选项A和选项B正确的数量相等。图中的差异定义为隐式概率AUPRC与显式概率AUPRC之间的差异。根据图2,对于大多数LLMs,随着数据集的不平衡程度增加,AUPRC差异也增加。这可以通过AUPRC的计算方法来解释。由于我们在绘制AUPRC时将选项A定义为正类,选项A为正确标签的稀缺性在确定精确率和召回率方面起着重要作用,这是PRC曲线的关键。随着选项A为正确的情况减少,任何错误分类都会被放大,从而扩大两种概率之间的差异,如果一种概率优于另一种的话。我们没有展示70%和90%不平衡率的结果,因为它们与50%不平衡率的结果非常相似。这也合乎情理,因为PRC与真负样本无关,选项A为正确的情况过多会最小化两种概率之间的差异。

图2:USMLE数据集上的AUPRC差异和概率分布

USMLE数据集上的AUPRC差异和概率分布。a 不平衡USMLE数据集上大型LLMs的AUPRC差异。b USMLE数据集上Meta-Llama-3.1-70B-Instruct的AUPRC差异和概率分布。虚线分别为选项A(黄色)和选项B(绿色)正确时的概率分布拟合曲线。

全尺寸图片

LLM概率分布

每个数据集上每个LLM的概率分布见补充图11至补充图15,Meta-Llama-3.1-70B-Instruct在USMLE数据集上的示例见图2b。根据图2b,除Phi-3-medium模型在MCMLE数据集上的表现外,所有其他LLMs在每个数据集上都有较好的表现,当真实标签为0时概率较低,当真实标签为1时概率较高,这与我们发现的一致(表1)。与显式概率相比,隐式概率的分布更分散,这与我们在AUROC和AUPRC曲线上的发现一致。然而,我们注意到,即使显式概率分布较窄,也可能给出接近50%的值,而分布更广的隐式概率值很少落在这个范围内。

对于大多数LLMs,无论其预测是否正确,其显式和隐式概率分布都非常两极分化。这表明LLMs对其大部分预测过于自信。由于这种两极分化在MGB-SDoH数据集上仍然存在,这是一个在LLM训练期间无法接触的私有数据集,我们认为这种自信并不源于数据泄露,而是LLMs的内在属性。一些例外情况是Mistral-Large和Phi-3-medium模型在MCMLE和MGB-SDoH数据集上的表现,这些模型显示出广泛的隐式概率分布,但其显式概率分布仍高度两极分化。

敏感性分析

使用三种不同提示的USMLE数据集上LLMs的AUROC见补充图16。这表明在所有三种提示下,隐式概率的AUROC均高于显式概率。我们还了解到,主提示和第一辅助提示在AUROC方面表现相似,这合乎情理,因为这两种提示都使用类似的多选格式并包含类似的信息。使用第二辅助提示时,两种概率的AUROC大幅下降。我们认为这是由于引入了学生向LLM提出答案的设定,增加了额外的复杂性并降低了模型的表现。

讨论

本研究探讨了LLMs在医疗领域的概率预测,并表明简单的显式概率(直接从生成文本中提取)提供了相对较高的AUROC和AUPRC,但在不同语言、数据集和提示设计下始终不如隐式概率(从预测标签令牌的转换得分中得出)可靠。显式和隐式概率之间的性能差距在小型LLMs中尤为明显。

概率估计很重要,因为估计值与为不同临床需求专门设置的阈值进行比较,反映了专家判断。例如,低风险干预措施使用较低的阈值,而侵入性程序使用较高的阈值。错误的估计可能导致错误的决策,危及患者安全和治疗效果。我们的研究表明,LLM用户应注意显式概率的潜在缺点,特别是在小型LLMs和标签分布不平衡的任务中,强调在临床环境中依赖LLM概率预测之前验证其可靠性的必要性。

我们发现,随着LLM性能的下降,显式概率的可靠性比隐式概率更差(图2,补充表5)。这表明使用显式概率可能会放大LLMs固有的偏差,尤其是当其性能较差时。在临床领域,由于少数语言的训练数据有限、缺乏领域知识和数据集不平衡,LLMs经常表现不佳。大多数LLMs主要基于英语语料库训练,而许多国家的医疗系统使用的是大多数LLMs不熟悉的少数语言。此外,由于数据访问和隐私问题,高级LLMs通常依赖于一般领域的数据集,缺乏对真实世界EHR笔记的接触,这限制了其在临床环境中的有效性。医学数据集也经常出现表型不平衡的问题,如罕见疾病或严重的临床结果,以及队列识别。在这种临床场景中,LLMs的不良表现和增加的偏差阻碍了显式概率的准确解读。

显式概率的缺陷突显了在临床环境中谨慎使用的必要性,并强调了通过整合隐式概率来增强LLM显式概率输出的重要性,这是本研究的未来工作之一。一种有前景的方法是通过隐式概率监督微调LLM显式概率输出,从而引导模型生成更准确的概率,类似于通过外部CoT监督改进LLM隐式链式思维能力的工作。改善LLM数值推理能力的方法也可以用于增强显式概率输出。

最近的研究表明,在LLM推理过程中,预测不确定性与幻觉之间存在相关性——LLM生成不受输入支持的虚假事实或知识的行为。在临床环境中,LLM的幻觉可能导致错误诊断、不当治疗并损害对其使用的信任。提高显式概率以准确反映LLM的不确定性可以作为检测幻觉的关键指标。显式概率低的主要原因是知识不足,这可能导致LLM在预测中产生幻觉信息。因此,低显式概率可能信号更高的幻觉风险。我们留待未来的工作是通过增强显式概率来检测LLM的幻觉,旨在推进检测和减轻医疗保健中LLM幻觉的努力。

我们的研究存在几个局限性。我们的实验简化为二分类设置,以促进隐式概率的提取和AUROC及AUPRC的计算。因此,我们关于二元选项的结论不能推广到其他任务,如多项选择题。此外,我们没有使用链式思维(CoT)提示来检查概率性能,因为在这些情况下提取隐式概率具有挑战性。此外,我们的研究仅适用于开源LLMs,因为很难获得专有LLMs的隐式概率。最后,我们的结果主要基于医疗数据集,其在不同领域的普遍性需要通过进一步的验证研究来确认。

本研究探索了LLMs在医学领域的概率输出,这是LLM在医疗保健中应用的重要方面。通过在多个先进LLMs和医学数据集上比较显式和隐式概率,我们发现了可靠性的持续差异,特别是在小型模型和数据集不平衡的情况下。这些发现强调了在临床环境中依赖显式概率时需要谨慎,因为风险很高,概率预测的准确性至关重要。这项研究为未来的研究所提供了信息,旨在通过提高概率预测的质量和可靠性来增强LLM在医疗保健中的可信度。

【全文结束】


(全文结束)

大健康

猜你喜欢

  • AI方法构建Genomenon的临床相关基因组数据数据库AI方法构建Genomenon的临床相关基因组数据数据库
  • NHS需要重新掌控其数据NHS需要重新掌控其数据
  • 研究显示聊天机器人存在认知局限性研究显示聊天机器人存在认知局限性
  • AI医疗翻译安全吗?AI医疗翻译安全吗?
  • 应对医疗AI技术中的潜在偏见应对医疗AI技术中的潜在偏见
  • 多模态AI在数字医学中的应用多模态AI在数字医学中的应用
  • Alphabet 子公司 SandboxAQ 筹集 3 亿美元基金用于“下一代 AI”Alphabet 子公司 SandboxAQ 筹集 3 亿美元基金用于“下一代 AI”
  • 医疗保健晴雨表 03/2024:医疗保健行业的人工智能医疗保健晴雨表 03/2024:医疗保健行业的人工智能
  • 干细胞移植后特定肠道微生物可减少移植物抗宿主病干细胞移植后特定肠道微生物可减少移植物抗宿主病
  • 医疗领域的人工智能:初现曙光医疗领域的人工智能:初现曙光
大健康
大健康

热点资讯

大健康

全站热点

大健康

全站热文

大健康