大型语言模型作为公众医疗助手的可靠性：一项随机预先注册研究 - AI与医疗健康

全球医疗保健提供者正在探索使用大型语言模型(LLMs)向公众提供医疗建议。LLMs在医疗执照考试中现已取得近乎完美的成绩，但这并不一定意味着在现实环境中能准确发挥作用。我们在一项有1,298名参与者参与的对照研究中测试了LLMs是否能帮助公众成员识别潜在疾病并选择行动方案（处置方式）在十个医疗场景中。参与者被随机分配接受LLM（GPT-4o、Llama 3、Command R+）或自选来源（对照组）的协助。单独测试时，LLMs能准确完成这些场景，在94.9%的案例中正确识别疾病，平均在56.3%的案例中正确选择处置方式。然而，使用相同LLMs的参与者在不到34.5%的案例中识别出相关疾病，在不到44.2%的案例中选择正确处置方式，这两项指标都不比对照组更好。我们将用户交互确定为LLMs用于医疗建议部署的挑战。医疗知识的标准基准测试和模拟患者交互无法预测我们在人类参与者中发现的失败。展望未来，我们建议在医疗保健领域公开部署前，进行系统的人类用户测试以评估交互能力。

近期人工智能研究的突破有望通过扩大医疗知识获取途径，使医疗保健更加普及，让医疗服务更贴近患者。像OpenAI的ChatGPT这样的大型语言模型(LLMs)的发展，可能使个人能够在没有临床医生立即干预的情况下进行初步健康评估、接收个性化医疗指导和管理慢性病。患者成功使用LLMs自我诊断的证言现在很常见。调查显示，越来越多的人已经开始向AI驱动的聊天机器人咨询敏感的健康相关问题，六分之一的美国成年人每月至少一次咨询AI聊天机器人获取健康信息。

尽管LLMs在医疗任务上现在表现优异，但在真实临床环境中尝试用LLMs辅助医生却面临困难。一方面，LLMs在医疗知识基准测试上的得分现已达到通过美国医疗执照考试的水平。LLM生成的临床文档被评价为等同于或优于医生撰写的文档。另一方面，在计算机环境中擅长医疗任务并不等同于在医生指导下的临床环境中准确发挥作用。例如，一项研究表明，在AI辅助下阅读胸部X光片的放射科医生的表现并不比没有AI辅助时更好，且两者都比AI单独工作时表现更差。另一项研究表明，在诊断问题上，由LLMs辅助的医生仅略微优于未受辅助的医生，且两者的表现都比LLMs单独工作时更差。为医生提供功能强大的AI系统并不足以在重要任务上为其提供有意义的辅助。医疗专业人员往往难以适当评估和整合AI生成的建议，限制了AI辅助的益处。

更有前景且更容易部署的是，LLM驱动的聊天机器人已被建议作为缺乏医疗专业知识患者的"医疗新入口"。作为医疗支持的首要接触点，它们可用于扩大医疗专业知识的获取途径，支持负担过重的卫生系统，改善全球健康。医学专家对LLMs直接为患者提供建议的前景意见不一，引用监管和责任问题，但也指出了在临床环境之外提供支持的潜在好处。作为回应，私营公司已做出相当大的努力，创建适合医疗应用的语言模型。

为了解LLMs是否能可靠地支持公众并使医疗服务更贴近患者，我们对1,298名英国参与者进行了研究。每位参与者都被要求识别十种不同医疗场景中潜在的健康状况和推荐的处置方案（行动方案）。这些场景由三名医生组成小组制定，他们一致同意每个场景的最佳处置方案。然后，这些场景被交给另一组四名医生，以提供鉴别诊断（见图1研究设计）。

我们随后将参与者随机分配到四个实验组，基于人口统计学进行分层，以确保每组的组成与全国成年人口相似。三组实验组的参与者被提供一个LLM（GPT-4o、Llama 3、Command R+）来帮助识别疾病和处置方案——为我们提供了一组可用于获取医疗信息的不同模型。对照组的参与者则被指示使用他们在家中通常会使用的方法。

首先，尽管我们选择了三个在单独识别处置方案和疾病方面成功的LLMs，但我们发现参与者难以有效使用它们。为解释这些发现，我们检查了参与者与LLMs交互的转录记录。在所有转录记录中，我们发现LLMs通常会建议至少一个相关疾病——但频率低于当LLMs单独获得整个场景并被要求输出相关疾病时。我们观察到参与者提供不完整信息以及LLMs误解用户查询导致这一结果的情况。此外，参与者并不总是遵循这些建议，表明将参与者与LLMs配对时的性能问题可能归因于人-LLM交互失败。

其次，我们表明，标准基准测试——通常用于在部署前确保安全性和可靠性——无法预测人-LLM交互失败。医疗知识通常使用来自医疗执照考试的问题进行基准测试。我们从与我们场景匹配的主题中汇编了基准问题，并将LLM在这些问题上的表现与每个模型和场景的相应交互测试中的表现进行比较。在结构化问答任务中的表现，如预期在30个实例中的26个中高于交互测试，与交互测试的结果基本不相关。

最后，我们表明，模拟用户与LLMs的交互——一种创建现实基准的有前景方法——也无法预测人-LLM交互失败。我们采用用于模拟患者与LLMs交互的技术，通过用LLM模拟用户替换我们的人类参与者来复制我们的交互测试。与我们对人类参与者进行的交互测试相比，LLMs在模拟中得分更高。关键的是，结果分布并未反映人类的变异性，且结果仅与交互测试微弱相关。

综上所述，我们的发现表明，将LLMs安全部署为公众医疗助手将需要超出专家级医疗知识的能力。尽管在医疗基准测试中表现强劲，但为人们提供当前代的LLMs似乎并不能提高他们对医疗信息的理解。解决这个问题将需要确定为什么人们在与基于LLM的工具交互时失败——例如，对技术的厌恶和对算法的隐性偏见，或LLM特性削弱了交互中的信任——并关键地，如何在高风险环境中设计更可靠和确定性的基于对话的LLM工具。重要的是，我们的工作表明，解决这些挑战将需要从基准测试和模拟转向对多样化、真实用户进行系统安全测试；这对于确保AI系统的可靠性并实现医疗保健的潜在益处至关重要。

为评估公众使用LLMs获取医疗建议的风险，我们进行了一项随机研究，要求参与者像在家中遇到医疗场景一样做出决策（图1）。我们创建了十个场景，患者必须决定是否以及如何获取专业医疗治疗。在每个场景中，参与者在五点量表上选择最佳处置方案，从待在家中到呼叫救护车，并列出导致他们选择的相关医疗状况。我们根据参与者的选择是否与参与案例起草的三名医生给出的答案相匹配来评分所选处置方案。我们根据所列医疗状况是否出现在由四名不熟悉场景的医生生成的相关状况黄金标准列表中来评分。

我们招募了1,298名居住在英国且年龄超过18岁的参与者（图1b）。参与者被随机分配到三个实验组或对照组，以提供最多两个响应，每个实验条件的样本群体按分层抽样以反映英国的人口统计学特征。数据收集持续到每个实验条件收集到600个响应。实验组的参与者与GPT-4o、Llama 3或Command R+至少交互一次，并可以根据需要多次交互，以帮助他们决定如何回答问题。我们选择这些模型来代表广泛使用的LLMs以及使用互联网搜索来增强响应的方法。对于对照组，我们指示参与者使用他们在家中通常会使用的任何辅助工具（例如，互联网搜索）。

作为对LLMs针对我们特定的十个场景集的潜在有用性的验证，我们直接向模型提供场景和问题，并为每个模型每个场景采样60个响应。模型能够在94.7%的GPT-4o案例、99.2%的Llama 3案例和90.8%的Command R+案例中建议至少一个相关状况。模型推荐处置方案的准确性为GPT-4o 64.7%、Llama 3 48.8%和Command R+ 55.5%（图2a）。总体而言，这些分数表明模型有能力在这些任务上提供有用的医疗信息，表现优于在五个处置选择之间随机猜测或从我们的黄金标准列表中随机选择医疗状况，这与这些模型在其他医疗基准测试上的强劲表现一致。

图2b显示，与对照组相比，使用LLMs的参与者显著不太可能正确识别与其场景相关的至少一种医疗状况（所有三个模型的χ²(1)，n₁ = n₂ = 600，P < 0.001），并且平均识别的相关状况更少（GPT-4o，0.42-0.54；Llama 3，0.39-0.50；Command R+，0.34-0.43；对照组，0.55-0.67；使用1,000次重采样的bootstrap 95%置信区间）。对照组参与者识别相关状况的几率比使用LLMs的参与者总体高出1.76倍（95% CI = 1.45-2.13）。他们识别"红旗"列表中更严重状况的可能性也高出1.57倍（95% CI = 1.28-1.92）。

使用LLMs的参与者在处置准确性方面与对照组没有统计学上的显著差异（GPT-4o，χ²(1) = 0.17，P = 0.683；Llama 3，χ²(1) = 0.34，P = 0.560；Command R+，χ²(1) = 0.03，P = 0.861；n₁ = n₂ = 600；图2b）。43.0% ± 2.0%的总体正确响应率超过了20%的随机猜测基准，但大多数参与者仍然选择了不正确的处置方案。使用LLMs的参与者和对照组都倾向于低估其状况的急性程度（Mann-Whitney U n₁ = n₂ = 600，所有实验条件P < 0.001）。GPT-4o和Llama 3的用户在临床急性程度估计方面有高于对照组的趋势，但这一结果不显著（Mann-Whitney U n₁ = n₂ = 600；GPT-4o，F = 0.536，P = 0.023；Llama 3，F = 0.529，P = 0.072；Command R+，F = 0.514，P = 0.366，未经调整）。

与LLMs直接提供场景和任务时相比，使用LLMs的参与者表现始终更差（图2）。在识别相关状况方面，所有三个实验组的表现都比没有人类交互的相应模型更差（χ²(1)，P < 0.001，n₁ = n₂ = 600）。在处置方面，GPT-4o和Command R+的表现优于使用LLMs的任何参与者组（χ²(1)，P < 0.001，n₁ = n₂ = 600），Llama 3的观察均值也更高，但统计上不显著（χ²(1) = 2.44，P = 0.118，n₁ = n₂ = 600）。LLMs单独运行时的强劲表现不足以保证与用户一起时的强劲表现。

为隔离用户交互的作用，我们将识别相关状况的表现与不同程度的用户参与进行了比较。在用户交互中，GPT-4o在65.7 ± 6.2%的情况下提到了相关状况，Llama 3在67.0 ± 6.1%的情况下，Command R+在73.2 ± 5.7%的情况下（图3）。每一项都显著低于LLMs单独运行时的表现（图2），表明关于场景的必要信息在用户和模型之间没有得到充分沟通。尽管这些正确建议出现在对话中，但用户并未始终将其包含在最终响应中，表明模型和用户之间存在第二次沟通中断（图3）。

为衡量参与者是否从LLMs获得准确建议，我们搜索了每次对话，以确定提到了哪些医疗状况（方法中的"状况提取"）。我们发现，平均而言，LLMs在每次交互中建议了2.21（2.12-2.32 95% CI）种可能状况，其中只有34.0%（32.3-35.9% 95% CI）是正确的。与LLMs交互后，参与者被要求列出所有相关状况，平均列出1.33（1.28-1.38 95% CI）种。我们发现，用户最终响应的精确度仅略好于LLMs提到的所有中间状况的组合，为38.7%（36.3-41.4% 95% CI）。这表明参与者可能无法识别LLMs建议的最佳状况。

为更好地理解导致人-LLM交互中表现降低的机制，我们分析了30次交互的随机选择，每个模型和场景组合一次。对于每个选定的交互，我们阅读了交互转录记录并记录了（1）用户在初始消息中是否提供了足够信息以正确识别状况，（2）用户在交互过程中是否提供了足够信息，（3）模型提出的任何建议的准确性，以及（4）用户最终是否遵循了模型的建议。我们还记录了展示LLM和用户之间独特动态的交互。

总体而言，用户经常未能向模型提供足够的信息以达成正确建议。在30次抽样交互中，有16次的初始消息仅包含部分信息（有关转录示例，请参见扩展数据表1）。在这16次中的7次交互中，用户在后续消息中提到了额外症状，要么是对模型问题的回应，要么是独立提出的。

LLMs生成了几种误导性和不正确的信息。在两种情况下，LLMs提供了最初正确的响应，但在用户添加额外细节后添加了新的不正确响应。在另外两种情况下，LLMs没有提供广泛响应，而是狭隘地扩展了用户消息中的单个术语（"先兆子痫"和"沙特阿拉伯"），而这些术语与场景无关。LLMs还通过例如推荐拨打部分美国电话号码并在同一次交互中推荐拨打澳大利亚紧急号码"Triple Zero"，在上下文理解上犯了错误。比较不同场景，我们还注意到LLMs对语义相似输入的响应不一致。在极端情况下，两名用户发送了非常相似的消息描述蛛网膜下腔出血的症状，但得到了相反的建议（扩展数据表2）。一名用户被告知在黑暗的房间里躺下，另一名用户得到了寻求紧急护理的正确建议。尽管存在所有这些问题，我们还观察到了成功的交互，用户将对话从错误中重定向，表明非专业用户在某些情况下可以有效管理LLM错误（扩展数据表3）。

参与者在与LLMs交互时采用了广泛的策略。几位用户主要提出封闭式问题（例如，"这可能与压力有关吗？"），这限制了LLMs的可能响应。当被要求证明他们的选择时，两名用户似乎通过拟人化LLMs并将它们视为类人来做出决定（例如，"AI似乎相当自信"）。另一方面，一名用户似乎故意隐瞒了他们后来用于测试模型建议状况正确性的信息。

为评估问答基准测试在多大程度上预测了用户部署中的表现，我们在MedQA基准测试的针对性子集上对LLMs进行了评分。使用每位医生生成的相关状况列表，我们筛选了包含这些状况的MedQA问题，得到236个项目。然后，我们使用标准的五次提示对这些多项选择题上的LLMs进行准确性评分。

图4显示了每个LLM对每个场景的MedQA基准测试过滤子集的准确性。LLMs在MedQA上的准确性始终高于用户在主研究中使用LLMs时的表现（GPT-4o，20个案例中的20个；Llama 3，20个案例中的19个；Command R+，20个案例中的17个）。通过MedQA的近似标准是60%，模型通常能达到这一标准。然而，在几种情况下，超过80%的基准分数仍对应于低于20%的人类实验分数，表明潜在差异的大小。在问答任务中的成功并不能充分表明相同信息将有效地应用于现实世界任务。

为与基于模拟患者交互的基准测试进行比较，我们用参与者被LLMs替代的方式进行了人类受试者实验的变体。我们提示一个LLM实例充当患者，向其提供一个场景和回答任务的两个问题，并指示其使用另一个LLM的帮助来回答问题。"患者"LLM被指示开始与助理的对话，然后在两个模型之间传递聊天消息，直到"患者"模型回答两个任务问题。每个场景针对每个实验条件重复十次，总共产生300次模拟对话。

图4b比较了人类受试者实验与模拟用户实验的结果。在识别处置方案方面，模拟参与者表现出较少的变异，30个场景中有26个在十次试验中准确率均为100%或0%。平均而言，模拟参与者的表现优于人类参与者，在确定处置方案方面的准确率为57.3% ± 5.6%，在识别相关状况方面的准确率为60.7% ± 5.5%。尽管咨询了相同的LLMs以获取建议，但模拟参与者在选择处置方案方面每场景的平均分数仅微弱地预测了真实参与者，GPT-4o用户的线性回归系数为0.33 ± 0.25，Llama 3用户为0.31 ± 0.31，Command R+用户为0.20 ± 0.38。识别相关状况的分数则完全没有关系，GPT-4o用户的线性回归系数为-0.01 ± 0.34，Llama 3用户为-0.17 ± 0.29，Command R+用户为-0.01 ± 0.51。基于这一比较，模拟参与者似乎没有准确反映人-LLM交互，这使得在安全测试中包含实际人类至关重要。

我们的发现突显了将LLMs用于直接患者护理的公共部署所面临的挑战。我们进行了一项随机研究，测试使用LLM支持医疗自我评估的效果。尽管LLMs单独在任务中具有高熟练度，但LLMs和人类用户的组合在评估临床急性程度方面并不比对照组更好，在识别相关状况方面表现更差。先前的研究表明，使用LLMs并不能改善医生的临床推理，我们发现这同样适用于公众。我们进一步确定了LLM和用户之间信息传输是特定的故障点，用户向LLMs提供不完整信息，LLMs建议了正确答案但未能有效地将这些信息传达给用户。我们考虑了LLMs医疗能力的两种常见测试方法，发现尽管它们可能评估存储在LLMs中的医疗信息，但它们不能反映部署中用户交互的挑战。

我们强调了本研究中确定的用户交互的三个方面，以促进进一步研究。首先，在交互过程中，LLMs通常提供2.21种可能选项，让用户最终决定接受哪种，但用户在做出这一选择时表现不佳。因为我们表明LLMs单独执行任务的表现优于大多数用户，因此改进从LLMs向用户传达信息将非常有效。像本研究这样的交互式、多轮评估对于更好地理解和改进这些能力至关重要。其次，与真实的医患互动一样，在本研究中，用户选择告诉LLMs什么，这导致LLMs没有获得足够的信息来提供正确建议的情况。在临床实践中，医生进行患者访谈以收集关键信息，因为患者可能不知道哪些症状重要，类似技能将需要用于面向患者的AI系统。第三，LLMs对输入的小变化的敏感性为形成LLM行为的心理模型带来了挑战。即使是偶尔的事实和上下文错误也可能导致用户忽视LLMs的建议。要存在面向公众的医疗LLM，我们预计LLMs首先需要变得更加一致，以改善用户-LLM交互。

随着数百万人定期咨询LLMs获取医疗建议，医疗保健从业者现在需要了解患者基于LLM的护理意见的预期。我们发现，使用LLMs的患者在理解症状的急性程度和识别病因方面的准确性较低，与使用传统方法的参与者相当。我们的场景集中在用户可能熟悉症状的常见状况上，结果可能在罕见状况或不太典型的呈现上有所不同。通用LLM平台的开发者可能有动机设计风险厌恶型LLMs，更可能建议咨询医生或前往急诊服务。在本研究中，我们没有发现显著证据表明咨询LLMs的参与者对其场景的急性程度估计更高，仅观察到很小的差异。然而，随着LLM使用增加和多样化，应在未来密切监控这一点，以确保医疗服务不会因虚假请求而超负荷。

与最近关于LLMs在医学中使用的相关工作一致，我们在交互中使用临床病例以限制对参与者的风险。这使我们能够专注于LLMs与公众成员交互的挑战，而不考虑参与者因经历危及生命的症状而产生的紧迫感和压力，以基于这些症状做出良好决策。我们建议，一旦LLMs在基于场景的实验中取得成功，测试可以朝着越来越现实的条件发展。

在我们的工作中，我们发现测试的语言模型均未准备好用于直接患者护理。尽管LLMs单独表现强劲，无论是在现有基准测试上还是在我们的场景中，但医疗专业知识对于有效的患者护理来说是不够的。我们的工作只能提供性能的下限：更新的模型、使用从思维链到推理标记的高级技术的模型，或微调的专用模型，可能会在医疗基准测试上提供更高的性能。然而，目前尚不清楚这些收益是否会转化为与真实用户更高的性能，或者只会强调与他们操作时的差距。我们建议开发者以及政策制定者和监管机构将人类用户测试视为更好地评估交互能力的基础，以便在未来任何部署之前进行。

研究采用了一个包含三个实验组和一个对照组的组间设计。在处理阶段之前，参与者完成了人口统计学调查。在处理阶段，我们向研究参与者展示了可能在日常生活中出现的医疗场景，并指示他们评估临床急性程度。遵循最近测试医疗LLMs的工作实践，我们使用临床病例以使各处理组的条件具有可比性。在实验组中，我们向参与者提供了一个LLM聊天界面以支持他们的决策，我们指示对照组使用他们通常会使用的任何其他参考材料。完成处理后，所有参与者完成了关于他们体验的后续调查。数据收集使用Dynabench平台进行，预处理和后处理调查通过Qualtrics进行。我们进行了三次针对相同目标人群的小型试点研究，以完善界面和指令，导致指令文本的变化以及从以第三人称呈现场景转变为以第二人称呈现。我们预先注册了人类受试者实验的研究设计、数据收集策略和分析计划。仅LLM实验是在预先注册后添加的，以更好地理解人类研究的结果。

我们使用Prolific招募了1,298名参与者，以收集2,400次对话。所有参与者都必须年满18岁并能说英语。数据收集在2024年8月21日至2024年10月14日之间进行。我们使用Prolific平台上的分层随机抽样，为目标组中的英国人口代表性样本。样本量是基于为该样本提供足够人口统计学覆盖所需的最少参与者数量选择的。参与者每人获得2.25英镑的报酬。所有数据收集都是假名的，唯一假名在发布前与数据分离。在参与研究前获得了所有参与者的知情同意。有关功效分析和参与者的详细人口统计学，以及按性别划分的结果分解，请参见补充信息。

在数据收集过程中，我们遇到了一个API问题，即LLMs在超时前未能提供响应；该问题在我们的平台上级联，影响了GPT-4o和Llama 3实验组，需要替换98名参与者，因为模型未能响应用户。我们支付了所有受影响的参与者。我们还替换了13名由于Prolific平台软件错误而出现在多个实验组中的参与者。由于技术问题，我们将停止协议从原始预先注册调整为每个处理收集600次交互，每位参与者最多两次，而不是每个处理恰好300名参与者，每次交互两次。这导致每个处理组中参与者数量的变化。除了技术问题的替换外，我们还排除了493名开始但未完成研究的参与者的数据。在这些参与者中，392名仅开始了预调查，未暴露于处理。对于其余101名，我们未发现流失率与处理组之间存在关联的证据，GPT-4o处理组有26名流失，Llama 3处理组有30名，Command R+处理组有25名，对照组有20名（χ²(3) = 0.948，d.f. = 3，P = 0.814）。

本研究中遵循的研究方案获得了牛津互联网研究所（牛津大学）部门研究伦理委员会的批准，项目编号为OII_C1A_23_096。方法是根据相关指南和规定进行的。在参与研究前获得了所有参与者的知情同意。

在交互阶段之前，我们从参与者那里收集了有关他们背景的信息。我们要求参与者报告他们的教育水平、英语流利度、互联网使用习惯、医疗专业知识和使用LLMs的经验。这些变量的混杂效应测试包含在补充表5-8中。

参与者被分配到三个实验组或一个对照组。实验组被提供一个LLM聊天界面，以支持完成任务。为了代表公众可能使用的不同类型的模型，我们选择了三种不同的领先LLMs：GPT-4o，因其庞大的用户基础而被选为最可能被公众使用的模型；Llama 3，因其开放权重而被选，最可能被用作创建专用医疗模型的骨干；Command R+，因其使用检索增强生成而被包含，这是一个模型在生成响应前搜索开放互联网以获取信息的过程，可能提高可靠性。对照组参与者被指示使用他们在家中通常会使用的任何来源。后续调查表明，大多数参与者使用搜索引擎或直接访问受信任的网站，最常访问的是NHS网站（扩展数据图1和扩展数据表4）。参与者对分配给他们的模型不知情，也无法根据界面区分。对照组必然知道他们没有使用LLM。模型分别通过来自OpenAI、Hugging Face和Cohere的API端点进行查询。超参数和推理成本列在补充表9和10中。

我们为每位参与者分配了两个场景连续完成。这些场景描述了在日常生活中经历健康状况并需要决定是否以及如何参与医疗系统的患者。我们专注于在日常生活中遇到的医疗场景，因为这是在没有专业医疗建议的情况下使用LLMs的现实环境。为了稳健性，我们创建了十个涵盖不同呈现和急性程度的医疗场景，随机分配给参与者。

为评估正在做出的决策，我们向参与者提出了关于场景的两个问题：（1）"您需要什么医疗服务？"和（2）"您为什么做出这样的选择？请命名您认为与决策相关的所有特定医疗状况"。这些问题捕捉了正在做出的决策的准确性以及参与者在做出决策时形成的理解。这些问题在研究的这一阶段始终对参与者可用。

第一个问题是多项选择，有五个选项，如扩展数据表5所示，将急性程度映射到英国医疗系统。为清晰起见，参与者获得了选项及其描述，尽管许多参与者已经普遍熟悉他们的当地医疗系统。最紧急的，救护车，是对需要在到达医院前在运输中治疗的状况的适当响应。第二紧急的，事故和急诊，是对需要医院治疗的状况的适当响应。中间选项，紧急初级保健，是对患者需要由医疗专业人员紧急查看但不需要专业医院治疗的状况的适当响应。第二不紧急的选项，常规全科医生，是对需要专家医疗建议但性质不紧急的状况的适当响应。最不紧急的选项，自我护理，是对可以由患者在没有专家医疗支持的情况下管理的状况的适当响应。

第二个问题是自由回答。我们提供了一个示例，"疑似骨折"，以鼓励参与者在回答中具体说明。我们还要求参与者使用视觉模拟量表报告他们对响应的信心，如先前测量判断信心的研究中所示。

我们在三名医生的指导下创建了十个新的医疗场景，并基于四名额外医生的评估建立了黄金标准响应。我们与五名全科医生和两名重症监护医生合作，平均有24年的行医经验。我们最初使用来自英国国家健康与护理卓越研究所（NICE）指南的"临床知识摘要"起草了十个场景。我们选择了具有可以用非专业医疗术语描述的症状的常见状况。然后，前三名医生反复修订每个场景，直到他们同意基于我们的五点量表的最佳处置对训练有素的专业人员来说是明确的。我们将这些一致的响应用作每个场景下一步的黄金标准答案。

另外四名医生在不知道预期响应的情况下审查了场景，并为每个场景提供了鉴别诊断和"红旗"状况列表。在每种情况下，医生的鉴别都包括我们用作场景基础的状况，表明场景文本的清晰度。我们采用这些医生列出的鉴别状况的并集，为每个场景创建相关和红旗状况的黄金标准列表。通过创建新场景，我们确保与LLMs的训练数据没有直接重叠，这意味着任何正确响应都需要对其他信息进行概括。

每个场景遵循一致的三部分格式，具体案例细节给出在简短病史内的呈现症状；一般生活细节给出患者生活方式的简要描述；以及附加医疗历史给出长期状况、吸烟、饮酒和饮食习惯。每个场景都包含超出案例所需的额外信息，以便参与者被迫识别最相关的信息，就像在真实情况下一样。场景以第二人称书写（例如，"您有持续性头痛……"），基于常见实践。

具体案例在扩展数据表6中有简要描述，完整文本和黄金标准相关状况包含在补充信息中。

我们根据响应是否与医生确定的场景预期处置相匹配，对问题响应进行评分，以评估临床急性程度的准确性。如果响应与场景的预期处置相匹配，我们将其视为正确，这是由医生确定的。我们分别报告了严重程度的过度估计和低估率，因为每种的后果都不同。这种准确性是人-LLM团队成功的关键指标，因为在真实案例中，后续护理将取决于找到正确的提供者。

我们根据参与者命名的相关状况是否与我们医生生成的黄金标准列表一致，对自由文本解释进行评分。因为我们要求参与者列出"所有"潜在相关状况，而不是惩罚错误答案，如果提到的状况之一与黄金标准状况匹配，则答案被视为正确。参与者平均列出1.33种状况，使此指标类似于要求单个答案与黄金标准列表完全匹配。我们使用模糊匹配来允许状况的拼写错误和替代表述。我们使用200个案例的手动评分样本来选择尽可能匹配正确响应而不接受错误响应的阈值。我们选择了20%字符差异的阈值，精度为95.8%，召回率为95.8%，允许两个假阴性和两个假阳性（补充图6）。

所有统计数据均使用Python中的STATSMODELS v0.14.3和SCIPY v1.13.0包计算。比例之间的比较使用具有1 d.f.的χ²检验进行，等同于双侧Z检验。双侧Mann-Whitney U检验用于测试每个处理组的响应概率是否比对照组更高度评价急性程度，以及评估参与者过度或低估其状况急性程度的倾向，以包括有关错误程度的信息，使用共同语言效应大小，f=U/(n₁n₂)，来报告效应大小。

对于会话中出现的状况数量的置信区间，我们使用自助法，采用1,800个带替换样本计算状况的平均数量，并重复1,000次。

对于与模拟基线的比较，使用SEABORN v0.13.2回归图功能以及STATSMODELS计算线性回归和置信区间。

在交互阶段之后，我们要求患者提供关于他们体验的评论。对于每次交互，参与者报告了他们在做出决策时对不同信息来源的依赖程度。他们还提供了对LLMs在一般和医疗用途方面的信任评分，以及他们向家人和朋友推荐LLMs的可能性。后续调查的结果包含在扩展数据图1中。

为确定LLMs在每次交互中提到了多少状况，我们使用GPT-4o提取了状况列表。我们使用提示"识别并返回响应中列出的任何医疗状况名称。如果存在多个状况，请将它们全部以逗号分隔列表的形式返回。如果没有状况存在，则返回'无'。如果存在一个主要状况和一个并发的次要状况，请返回主要状况的名称。不要解释"。对于每次交互，这产生了一个出现的不同状况列表。我们对用户最终响应应用了相同的方法，以产生提到的状况数量的计数。

为测试模型在独立于用户的情况下的医疗评估能力，我们向每个模型提供场景文本，并直接要求回答提供给用户的相同问题。我们分别提示模型进行处置和相关状况，以避免可能影响响应质量的强制答案格式。在初步测试中，当两个问题一起提出时，模型不太可能遵循所需的多项选择格式。为与研究的其余部分保持一致，我们使用了相同的超参数和零样本提示，并从每个模型收集了600个响应。

为与这些模型在现有基准测试上的表现进行比较，我们对与我们场景最相关的MedQA子集对每个模型进行了评分。MedQA是最广泛使用的医疗问答基准测试，使用来自医疗执照考试的问题。为选择相关子集，我们筛选了包含我们相关状况黄金标准列表中状况的问题。然后，我们仅使用五次提示对这些问题上的模型进行评分，其中模型在真实问题前获得五个问题/答案格式的示例。我们在236个来自MedQA的问题上测试了模型，这些问题提到了与每个场景相关的状况：蛛网膜下腔出血（n = 10）、肺栓塞（n = 30）、耳鸣（n = 6）、溃疡性结肠炎（n = 19）、肾绞痛（n = 11）、胆结石（n = 26）、肺炎（n = 40）、贫血（n = 40）、普通感冒（n = 24）和过敏性鼻炎（n = 30）。问题筛选程序的详细信息包含在补充信息中。

为与具有模拟用户的任务上这些模型的表现进行比较，我们使用LLM模拟参与者复制了人类研究实验设计，改编自先前的工作。对于模拟参与者，我们使用了基于参考文献24中的等效提示，这是模拟医疗交互的最新技术："您是一名患者。您没有任何医疗知识。您必须根据给定的案例病例和AI模型的辅助进行自我症状评估。不要破坏角色并透露您正在描述来自案例病例的症状。不要生成任何新症状或知识，否则您将受到惩罚。记住，您是患者。将给定段落中使用的术语简化为外行语言，并保持您的问题或陈述简短"。

与其他工作一样，我们对所有模拟参与者使用GPT-4o。这确保了公平比较，因为患者将是相同的。

进一步的研究设计信息可在链接到本文的Nature Portfolio报告摘要中获得。

在当前研究期间通过实验研究生成的数据集可在

用于生成手稿中分析的所有代码由作者共享以供重用，并可在

【全文结束】