初级保健中的人工智能:创新的十字路口Artificial intelligence in primary care: innovation at a crossroads - The Lancet Primary Care

环球医讯 / AI与医疗健康来源:www.thelancet.com澳大利亚 - 英语2026-01-02 01:00:07 - 阅读时长27分钟 - 13452字
本文全面评述了人工智能在初级保健领域的应用现状与挑战,分析了AI如何支持初级保健提供者和患者健康管理,探讨了AI对医疗质量各维度(包括有效性、安全性、及时性、效率、以患者为中心的护理、医疗提供者体验、公平性和行星健康)以及初级保健特有属性(可及性、全面性、协调性和连续性)的影响。研究指出,尽管AI为初级保健带来创新机遇,但其快速部署超前于真实世界评估和监管,可能对护理质量产生意想不到的后果,实施AI需仔细考虑质量领域、通用设计原则、健康数字决定因素和AI健康素养,才能实现可持续、高质量的AI赋能初级保健,同时强调需关注公平性和行星健康问题,确保技术发展符合患者体验和价值观。
初级保健人工智能医疗质量患者安全公平性行星健康提供者支持患者健康管理AI监管健康素养
初级保健中的人工智能:创新的十字路口

摘要

尽管初级保健是医疗保健服务的基石,但它正面临日益加剧的压力。人工智能(AI)的最新进展为变革初级保健提供了新机遇。然而,AI在稳健的真实世界评估或监管之前快速部署,引发了对护理质量可能产生意外后果的担忧。我们综述了AI在初级保健中的应用,涵盖支持初级保健提供者和人们健康管理的AI。本综述考虑了AI应用对医疗质量不同领域——有效性、安全性、及时性、效率、以患者为中心的护理、医疗提供者体验、公平性和行星健康——以及初级保健特有属性(可及性、全面性、协调性和连续性)的影响。在初级保健中实施AI,受益于对这些质量领域的仔细考虑、对通用设计原则、健康数字决定因素和AI健康素养的关注,以及与患者体验和价值观的一致性,以支持向可持续和高质量的AI赋能初级保健转变。

引言

初级保健是全球医疗保健的支柱,它在社区中提供贴近人们生活和工作地点的可及、持续、全面和协调的以个人为中心的护理。高质量的初级保健已知可改善健康结果、公平性和医疗保健的成本效益。初级保健作为全球优先事项的重要性最早在1978年阿拉木图宣言中确立,并在2018年阿斯塔纳宣言中得到重申。2023年全球可持续发展报告将初级保健确定为实现联合国可持续发展目标的关键途径。

检索策略和选择标准

我们在2025年2月检索了MEDLINE(PubMed)和Google Scholar,结合自由文本术语和以下人工智能(AI;例如,机器学习、深度学习、大型语言模型和自然语言处理)和初级保健(例如,初级卫生保健、全科实践、家庭医学、社区健康)的受控词汇术语,无日期或语言限制:"生成式人工智能"[MeSH]、"人工智能"[MeSH]、"大型语言模型"[MeSH]、"机器学习"[MeSH]、"机器学习算法"[MeSH]、"强化机器学习"[MeSH]、"无监督机器学习"[MeSH]、"监督机器学习"[MeSH]、"深度学习"[MeSH]、"自然语言处理"[MeSH]、"计算机神经网络"[MeSH]、"支持向量机"[MeSH]、"语音识别软件"[MeSH]、"初级保健医生"[MeSH]、"初级保健护理"[MeSH]、"初级卫生保健"[MeSH]、"全科医生"[MeSH]和"全科实践"[MeSH]。计划对选定的任何非英语论文进行机器翻译。我们还检索了相关文章和作者已知的高被引重要论文的参考文献列表。一位作者(LL)筛选了所有检索结果,必要时与合著者讨论以确定相关性和适用性。我们有目的地选择了展示AI在初级保健中的广度和成熟度的文章,优先考虑高质量的研究设计(包括荟萃分析、系统综述和随机对照试验, wherever available)、时效性和对初级保健环境的适用性。我们在发现证据缺口和对聚焦主题的多样化考虑时,纳入了高被引观点文章、报告和非系统综述。

尽管被认可为全球优先事项,初级保健正面临重大挑战,如工作人员短缺和倦怠、资金不足、与其他护理层级整合不佳,以及日益增长的护理需求和复杂性,阻碍了护理质量。2-4 COVID-19大流行加剧了这些挑战,同时也加速了数字技术和初级保健虚拟交付的采用。3,5 人工智能(AI)的最新突破现在正在医疗保健中发现新的机遇(附录1)并迅速渗透到初级保健中。12 2024年,英国五分之一的全科医生报告在临床实践中使用生成式AI。13 促进数字健康创新和AI在初级保健中的安全和负责任采用是2025年宣布的《柳叶刀》初级卫生保健转型委员会的关键重点领域之一。5

附录1:人工智能(AI)的定义和医疗保健应用

AI指计算机系统执行通常与人类智能相关的任务的能力,如学习、推理、问题解决、语言理解和模式识别。6 基于规则的AI系统自1950年代就已存在,它们使用由人类定义的规则和逻辑运行。相反,机器学习是AI的一个子集,涉及算法识别数据中的模式(即从数据中学习)并执行自动化任务,而无需人类对每个步骤进行显式编程。6 在医疗保健中,机器学习通常用于风险预测和临床决策支持,通过分析电子健康记录中的结构化数据。深度学习是机器学习的一个分支,使用具有多层的人工神经网络来识别数据中的模式。6 深度学习越来越多地用于医学影像分析和自然语言处理应用程序,从临床笔记的文本中提取有意义的见解。自然语言处理是AI的一个领域,专注于使计算机能够理解、解释和生成人类语言(文本或语音),通常应用于聊天机器人和其他能够进行类人对话的对话式AI系统。7

最近,生成式AI的出现创造了一项技术飞跃,正在颠覆包括健康8和医疗保健交付在内的许多领域。生成式AI是一种深度学习,可以创建新的内容,包括文本(在大型语言模型[LLMs]的情况下)、图像、音频、视频和数据,这些内容类似于人类创建的输出。LLMs经过训练,通过分析大量文本数据并学习单词和句子使用模式来理解和生成人类语言。

与LLM的交互通常通过对话式AI界面以普通自然语言进行,系统跟踪上下文和对话中的迭代,类似于人类对话。7 当前的LLMs对提示(即查询或输入)的表述方式很敏感,提示中词语、短语或形式的变化会影响LLM生成响应的质量和准确性。7,9 提示工程是设计和优化提示以提高LLM特定任务或结果性能的过程。

除了通常向公众提供的通用LLMs外,还存在专注于临床护理的领域特定和任务特定解决方案。专注于医疗保健的LLMs通常依赖于更复杂的方法,包括检索增强生成和医学领域微调。检索增强生成是一种通过将LLM的生成能力与来自精选数据源(如临床指南、医学文献或电子健康记录数据)的实时信息检索相结合,来解决LLM某些局限性的方法。10 微调涉及使用特定领域的数据集(例如,医学问答数据集)重新训练通用LLM,以优化该领域的性能,研究表明这些模型现在可以在医学执照考试中取得优异成绩。11

在本综述中,我们评估了AI在初级保健中的当前和潜在应用,包括支持初级保健提供者的AI和支持人们健康管理的AI。我们使用"初级保健提供者"一词来涵盖所有初级保健一线提供者,除医生(也称为全科医生)外,这反映了初级保健的多学科性质。我们将考虑这些AI应用对医疗质量不同领域(改编自医学研究所的质量改进目标和五重目标14)以及初级保健特有属性(可及性、全面性、协调性和连续性)的影响1(图)。综述中考虑的医疗质量领域包括有效性、安全性、及时性、效率、以患者为中心的护理、医疗提供者体验、公平性和行星健康。综述最后讨论了对研究、政策和实践的启示。

支持初级保健提供者的AI

过去十年中,出现了几种AI工具来支持初级保健提供者完成不同任务,包括临床知识查询、行政任务、临床护理以及利用患者报告结果(PROs)和体验测量。

用于临床知识查询的AI

大型语言模型(LLMs)为初级保健提供者提供了一种新的方式来跟上证据并与临床知识来源(如临床指南和科学出版物)互动。与搜索引擎典型的基于关键词的查询相比,LLMs允许进行更精确的查询,通常称为提示。已经提出了不同的提示策略7,9 来提高LLMs响应的质量,初级保健提供者可以利用这些策略使用这些模型(附录2)。提示还可以包括文档,如电子表格、研究论文或指南,要求LLM基于输入文档回答特定问题,或请求摘要、翻译成不同语言,16 或通俗语言版本。值得注意的是,当前LLMs处理英语以外语言提示的能力各不相同,特别是对于临床知识查询。多语言LLMs可以支持某些语言,但对于其训练语料库中表示不足的语言和主题,性能可能较低。17 多语言医学LLMs的开发是一个日益增长的研究领域。

附录2:初级保健提供者使用大型语言模型(LLMs)进行知识查询的策略和考虑因素

不同的提示策略已被证明可以改善现有模型的响应。一般来说,好的提示是直接的,包括示例并提供上下文。提示策略的示例包括少量示例提示(即提供描述任务的示例)、思维链提示(即包括每个示例推理的分解)或角色设定(即为LLM分配角色,例如,"想象你是一名医生……")。9,11 然而,提示工程是一个快速发展的领域,不同提示策略的性能可能随着模型的每次更新而变化。新模型似乎能够更好地处理各种提示,并且可以在需要时请求额外信息以更好地定制其响应。

初级保健提供者使用LLMs的考虑因素:

  • LLMs的生成性质有时可能导致事实错误但令人信服的响应,称为幻觉或虚构。
  • LLMs对证据强度不敏感,可能基于弱证据或不可靠来源生成响应。LLMs依赖于公开可用的数据。
  • LLMs不是实时更新的,可能无法获取最新证据。
  • LLMs可能无法正确报告其响应的来源或响应背后的推理(称为黑箱问题)。即使提供了推理,响应也受LLM输出的相同限制(例如,幻觉),应谨慎解释。可解释人工智能15的固有限制在LLMs中更为突出,因为解释可能提供清晰黑箱的强烈错觉,并有更高的潜力引发信任并导致决策偏差,如确认偏差和自动化偏差。
  • LLMs可能无法有效传达不确定性。
  • LLMs可能表现出谄媚行为,模仿或支持用户的思维,即使用户的推理有缺陷或事实错误。
  • LLMs可能使用提示和输入数据来训练模型,因此不应向LLMs提供任何敏感信息或患者可识别数据。9
  • LLMs对非英语语言的性能各不相同。

用于行政任务的AI

AI听录员和环境监听技术有望通过自动捕获咨询中的关键内容并将内容总结到电子健康记录(EHR)中,实时起草笔记(提供者随后可以审阅、编辑和批准),从而减轻临床医生承担的一些文档和行政负担。最初作为独立产品工作,此类应用程序越来越多地集成到EHR中,通常涉及LLMs。18 关于AI听录员的研究对花在文档和相关EHR活动上的时间显示了混合结果,19,20 此外,文档长度增加,但表明初级保健医生的认知负荷降低,工作满意度提高。19 然而,人们对医疗记录的潜在质量下降、对提供者推理的影响以及导致提供者过度信任AI并未能发现生成笔记中问题的自动化偏差表示担忧。21,22

AI听录员对以患者为中心的沟通和医患关系的影响也很重要。早期报告似乎表明,护理接受者欣赏提供者的注意力集中在他们身上,而不是电脑上(附录3)。AI听录员可能促进回归医患二元关系,取代自2000年代初以来表征初级保健咨询的医-电脑-患者三元关系。AI听录员还可以用来改善医患关系和与护理接受者的沟通,例如,通过提供医生沟通技能的反馈,建议改善共同决策的方法,或生成患者友好的摘要(附录3)。相反,出于效率设计,AI听录员也从患者笔记中省略了非临床社交对话,这些对话是良好长期初级保健中关系建立的关键。18 如果AI听录员也遗漏相关的传记信息或患者偏好、价值观和信仰,那么医疗记录和护理交付的质量可能会慢慢下降。21 最后,人们担心从文档中节省的时间可能导致初级保健提供者预期要见的护理接受者数量增加,这反过来可能加剧提供者倦怠和以患者为中心的护理。18

附录3:护理接受者和全科医生对人工智能(AI)听录的观点

护理接受者观点

大卫(84岁)是美国一位退休兽医

"上周,我去健康诊所进行肺部检查,经历了一次有趣的会面!首先,我的医生请求允许录制办公室访问。然后,她进行了通常的会面,检查我的症状等,我从来没有想到这一切都被录制了。然而,她全神贯注于我,这在我看来很不寻常。在我上一次访问中,医生站在电脑前,大部分时间都在键盘上。在会面结束时,她提醒我关于录音,并说,'看看这个。我们正在尝试一个新系统。'然后,她向我展示了我们会话的文字记录,以及一份关注相关信息的医疗笔记摘要。它非常准确且没有拼写错误,几乎令人毛骨悚然!我发现办公室中医生-患者互动有了如此大的改进,一对一的交流更像过去的日子。无论如何,我相信这是初期阶段,会有改进,也会有批评或需要解决的问题。但这是我从一次相对简单的办公室访问中得到的第一印象。"

全科医生观点

伊丽莎白是英国的一位全科医生

"我一直认为自己处于咨询光谱中较慢但更彻底的一端,我希望国家医疗服务体系考虑的一件事是某种普遍可用的听写软件。随着我作为全科医生的经验增长,我意识到最耗时的方面是笔记的彻底记录。"

"4个月前,我开始在患者同意的情况下使用[AI听录员]记录咨询。[它]使用我设计的预设模板将文字记录转换为咨询笔记,在几秒钟内完成。[摘要]然后可以轻松复制并粘贴到相关临床系统中——与我在英国执业的系统兼容。[AI工具]还可以生成咨询摘要供患者使用,如果患者有此意愿。此外,它可以提供我咨询技能的反馈,这对个人发展和评估目的很有用。"

"对我而言,关键是将患者详细信息保留在AI系统之外,我感谢[AI听录员]将听录功能维持为免费服务。虽然我发现这些工具节省了大量时间,但有时我注意到它们可能插入不准确的信息,需要仔细审查。我肯定不会回到传统的打字方法,因为这些程序显著加快了我的咨询过程。我收到了同事的积极反馈,他们不知道我使用这些程序,证实了所产生笔记的质量。展望未来,消除编写笔记的需要代表了在时间受限的临床场景中的重大进步。"

AI还被提议作为支持初级保健提供者完成其他繁琐的行政任务的解决方案,这些任务对护理协调和连续性至关重要,例如回复患者电子消息23,24 和总结临床信息以编写医疗报告和转诊信。25 LLMs可以促进翻译和简化医疗内容的过程,并帮助提供者快速生成护理接受者临床信息的通俗语言摘要,如出院摘要笔记和咨询结束时的行动计划,以帮助患者理解和自我管理。26 此外,在美国的几个医疗保健组织中,LLMs正被用于EHR中并自动起草对患者消息的回复。这些部署的初步评估发现,与LLM起草的回复相比,没有节省时间的证据,23,24 尽管初级保健提供者感知到效率提高和认知负荷降低。27 对于护理接受者,一项研究表明更喜欢AI起草的消息,并且当这些消息附有AI参与消息起草的声明时,满意度略有下降,引发了关于护理中AI披露必要性的伦理问题。28 重要的是,评估AI生成的患者摘要和回复的研究表明内容质量结果不一,有些包括可能导致严重患者伤害的遗漏或幻觉。24,27,29,30 将这些工具应用于向护理接受者提供临床信息和建议需要仔细的提供者监督,以确保患者安全。

用于临床护理的AI

到目前为止,已在随机试验中实施或评估的初级保健AI临床护理应用主要是生成式AI之前的非LLM解决方案,包括深度学习图像分析(例如,糖尿病视网膜病变筛查)和基于EHR的机器学习算法。糖尿病视网膜病变筛查是AI在临床护理中的首批成功应用之一,提高了社区和初级保健环境中专家级测试的可用性,特别是在低收入和中等收入国家,多项试验显示了影响。31,32 相比之下,尽管体内研究表明性能结果令人鼓舞,但基于EHR的机器学习算法的稳健试验评估仍然稀缺。33,34 初级保健中的少数试验显示了混合结果:评估基于EHR的机器学习算法检测低射血分数的试验显示诊断显著增加,35 而另外两项试验在心房颤动诊断36 和治疗优化方面没有显示显著结果。37 这些试验突显了将算法性能转化为现实世界影响的挑战,其中许多因素可能影响实施成功(例如,临床医生-AI协作的异质性)。38 其他有前景的AI算法干预措施,如自动主动外展和从远程患者监测数据派生的数字生物标志物,目前没有稳健的试验评估,并面临相同的实施挑战,才能被初级保健提供者整合到临床决策中。34

评估算法在初级保健环境中实施适用性的关键,因为在算法生命周期的不同阶段相关的因素可能会影响现实世界翻译。例如,在二级和三级护理环境中使用数据集训练的机器学习模型可能在初级保健中表现不佳。使用不代表算法预期实施的患者人群和环境的数据进行训练可能导致偏见,例如谱系效应(即诊断或预测测试在不同患者人群中的性能变化,基于疾病严重程度、阶段或患病率的差异)。39 然而,一项针对初级保健中早期检测皮肤癌的AI算法的系统综述显示,272项纳入的研究中只有两项使用了来自皮肤癌低患病率临床环境的训练数据,类似于初级保健环境。40 评估算法在初级保健中的适用性的其他问题包括关键数据不可用,例如开发和验证信息(例如,设置和样本特征)。一项针对初级保健预测算法的系统综述显示,关键质量标准的公开证据稀缺,特别是对于获得监管批准的商业算法。33 算法生命周期所有阶段的透明度对于实现充分评估和实施成功很重要。

生成式AI在支持临床护理任务方面也显示出前景,并在医学问题回答11 和临床管理推理任务方面展示专家级性能。41 然而,迄今为止,对临床问题的良好性能证据主要来自模拟条件下的研究,而在现实世界中的性能可能根据问题格式、用户特征、临床医生-AI协作和其他情境因素而有显著差异。41-44 虽然AI可以在定义明确的结构化任务上表现出色,但初级保健在根本不同的现实中运作——由多病症、健康的社会决定因素、不断变化的患者偏好和价值观以及持续应对临床不确定性的复杂相互作用塑造。此外,将多种类型的数据(例如,影像、患者记录和医患对话)整合到临床实践中的复杂性迄今为止难以被AI处理,而多模态AI有望解决这一挑战。43 目前,定义生成式AI安全临床使用的护栏以及解决自动化偏差等问题的缓解策略很重要。42

用于利用PROs和患者体验的AI

AI可以改变初级保健服务和提供者收集和使用PROs和患者体验以改善护理质量的方式,既针对个人也针对整个人群。在个人层面上,将PROs纳入临床决策支持系统可以使决策和护理基于对护理接受者重要的结果进行定制,改善以患者为中心的护理和历史上在所接受护理中遇到偏见和歧视的群体的公平性。45 然而,将PROs用作AI干预中的输入变量很少见。46 通过对话式AI界面简化这些数据的收集,可以促进在临床护理和AI干预中改进使用PROs和患者报告体验测量(PREMs)。对话式AI可以使用文本或语音以人们的首选语言与他们互动,并在他们护理旅程的不同时间收集他们对PROs和PREMs问卷的响应。

在人群层面上,PROs和PREMs的系统收集、分析和使用可以突出护理质量差距,识别不断变化的人群需求,促进不同地点之间的交叉比较和学习,并为高质量初级保健的质量改进计划和全系统变革提供信息。47 例如,AI还可以用于分析以自由文本格式收集的患者反馈。患者反馈在初级保健中尤为重要,因为初级保健通常是个人与医疗保健系统接触的第一点。反馈有助于识别可能对患者信任、依从性和长期参与护理产生负面影响的沟通、护理协调、连续性、可及性、以患者为中心和整体护理质量方面的差距。通过捕捉患者声音,初级保健实践可以改进流程,根据社区需求定制服务,解决健康的社会决定因素,并增强个人与提供者之间的关系。AI可以促进将患者反馈分析和分类到不同主题中,然后可用于实施质量改进计划并改善患者体验(附录4)。

附录4:用于质量改进的人工智能患者反馈分析示例(虚构)

安格勒西路诊所是都柏林的一家大型全科诊所,拥有50,000名注册护理接受者。鼓励护理接受者在网站上留下诊所评论。每月一次,诊所经理将上个月的评论上传到ChatGPT,并要求应用程序识别主题。这个过程使诊所能够识别出老年人停车困难的问题,并增加了停车场中保留的无障碍停车位数量。诊所还从评论中发现护理接受者在早上难以通过电话联系,因此重新配置了接待员轮班以满足这一需求。

支持人们健康管理的AI

面向患者的AI工具正变得越来越普遍,无论是在医疗保健交付的背景下还是作为直接面向消费者的应用程序。AI在民主化健康信息和赋予人们在其健康和医疗保健中发挥更积极作用方面具有巨大潜力。对话式AI可能能够更好地吸引护理接受者并支持生活方式行为改变、慢性病自我管理和心理健康——这是一个试验证据仍在出现的领域。48,49 越来越多地,AI可以根据患者需求、语言偏好、文化、环境和健康素养水平来个性化健康信息。16,50,51 早期研究表明,当用于患者沟通和信息时,AI可以展示良好的感知同理心、个性化和语言简化水平。30,51 AI还可以用于更好地为共同决策做准备,并根据个人风险-收益信息和患者价值观和偏好的整合来个性化患者决策辅助工具。52,53 在不久的将来,医疗报告、出院摘要的患者友好摘要,26,30 以及EHR中的信息(例如,咨询笔记)可能成为AI赋能的以患者为中心的医疗保健系统中的标准护理。

随着全球初级保健提供者日益短缺,医疗保健组织和政府开始转向AI来应对日益增长的护理需求。例如,数字症状检查器(在不同程度上涉及AI)正被用于使个人能够输入其症状和其他健康数据,以获得潜在诊断和分诊建议的列表。54 不同国家现在将症状检查器作为其虚拟前门方法的一部分,作为个人在医疗保健系统中的第一接触点,无需提供者监督。然而,评估可用症状检查器的诊断和分诊准确性的研究显示性能从低到中等不等,导致潜在的过度分诊和分诊不足。54 虽然过度分诊可能导致医疗保健服务的不必要使用并使系统负担过重,但分诊不足在危及生命的情况下可能造成灾难性后果。

直接面向消费者的AI健康应用程序55 的兴起以及面向患者的AI工具在整个系统中的部署,在当前评估和监管监督不足的情况下,引发了关于患者安全的重要担忧。56 这些风险在LLMs中尤其高,因为它们类人的对话能力和拟人化特征可能导致人们过度信任和过度依赖不正确或不完整的AI生成健康建议。57,58 行业、学术界、医疗保健和公众之间的协作伙伴关系对于确保患者安全和支持这些系统及时、严格和透明的评估至关重要,此外还需要现实世界测试和部署后监测。初级保健提供者在教育护理接受者和社区关于AI工具安全用于健康目的方面发挥着重要作用,特别是那些没有严格评估的工具。

公平性

AI和其他数字技术可以通过缩小或扩大社会经济和人口群体之间在医疗保健可及性、健康状况和健康结果方面的差距,以积极和消极的方式影响健康公平性。59-62 确保包容性和公平性是世卫组织治理AI的核心原则。偏见考虑和缓解策略对于防止可能源于算法偏见和AI系统现实世界实施的AI相关不公平性至关重要。60,62

尽管具有未来主义的魅力,AI是用过去的数据训练的,嵌入了威胁要使医疗保健中的不公平性持续存在的偏见。用于训练和测试AI算法的数据集在它们不代表AI系统将使用的预期人群时可能是偏见的来源。历史上用于AI开发的大量医疗数据集过度代表了欧洲血统的个体,这可能导致代表性不足人群的结果更差,并可能使系统性歧视持续存在。63 例如,一项针对初级保健中早期检测皮肤癌的AI的系统综述发现,只有小部分研究包括来自较深肤色的皮肤病变。63 一个相关问题是不同地理区域之间种族、民族和其他受保护属性数据的收集、分类和严格性的变化,这使它们作为协变量的包含变得复杂。40 因此,世卫组织出版物强调了AI产品在AI系统将使用的预期人群上进行训练并在应用于不同人群时重新训练的重要性。

AI中的偏见不仅是一个数据问题,还可能存在于算法开发和评估过程中的假设中(即算法偏见)。例如,当提供者用作训练数据集的参考标准时,他们在诊断中的潜在偏见可以作为AI系统中的偏见持续存在(例如,患有自闭症的女性被误诊为其他心理健康状况)。60 此外,AI已被证明能够从医疗图像中预测自我报告的种族,通常当临床专家无法做到时,这引发了对部署没有适当策略来解决偏见和确保公平性的模型的担忧。64 缓解这个问题的潜在方法包括更好地将算法与患者体验和结果保持一致,而不是与个人在医疗保健系统中被治疗的方式保持一致。45 实际上,与训练预测医生X光解释的算法相比,训练预测个体报告的膝痛的算法使有资格接受膝关节置换的黑人比例翻了一番。45,65 重要的是,通过数据分层、亚组和敏感性分析,以及评估预处理、处理中和后处理技术(例如,加权)在缓解偏见方面的影响,来稳健地评估算法在各种人群中的表现也很关键。

除了有偏见的数据集和算法外,当AI在复杂的社会技术系统(如医疗保健)中实施时,潜在的偏见也可能出现。许多因素,包括情境、提供者层面和患者层面的因素(例如,对AI的信任),将影响AI工具的采用和使用方式,以及偏见是否在实施阶段出现。62 在情境层面,资源较少的环境可能面临AI采用和实施的限制,导致与资源较多的环境相比,护理提供方面的不公平性。提供者在使用AI时也可能延续偏见,例如,在不同群体之间不平等地应用AI决策支持建议。在个人层面上,每当个人的能力、需求、特征以及结构和生活现实偏离技术设计中嵌入的假设时,数字鸿沟和不平等可能会加剧。在没有仔细考虑潜在偏见和健康的社会经济决定因素的情况下开发和实施AI可能会无意中增加健康不公平性并加剧逆向护理法则,即良好医疗或社会护理的可用性可能与服务人群的需求成反比。66

行星健康

人类健康和行星健康是紧密相连的。人类健康的最大进步来自于通过简单措施解决环境挑战,例如提供清洁空气、清洁水和更好的住房。然而,AI对能源和水的高消耗正在使其中一些进展面临风险。AI对温室气体排放的贡献估计存在争议,67 但现有证据指向水消耗和能源使用中令人担忧的趋势。68 一些估计表明,开发GPT-3的碳排放相当于188次从美国纽约市到加利福尼亚州旧金山的航班,与标准搜索引擎查询相比,与LLM的交互可以消耗十倍以上的能源。69 数据中心目前使用约1%的全球电力,但存在广泛的地理差异,爱尔兰的数据中心消耗超过20%的国家电力供应。69

矛盾的是,AI也有潜力支持环境可持续性努力,70 包括在医疗保健中。AI增强的初级保健可能特别适合通过在个人、家庭和社区层面上加强健康促进和预防工作,促进环境可持续的护理交付,71 从而改善人群健康并减少对医院护理的需求。初级保健提供者也是四级预防(即预防过度医疗和过度治疗)的专家,减少不必要或不适当的护理,从而避免与提供这些服务相关的排放。最后,初级保健靠近人们生活的地方以及多专业团队的参与,使交付多学科护理所需的旅行要求较低,虚拟和AI赋能的初级护理交付选项也是如此,这些选项最近变得更加普遍。

对研究、政策和实践的启示

AI在初级保健中的部署正在超越评估和监管。这种快速步伐为将创新更快地转化为人们对护理质量和现实世界的实际利益提供了机会,绕过了数字健康实施中的传统挑战。同时,缩短评估和监管可能会对患者安全、公平性和整体护理质量产生意想不到的后果。随着现有途径无法很好地应对AI的快速演变性质,可能需要新的监管范式。33,72,73 健全的评估过程也需要简化,在临床AI工具部署期间和之后进行持续监测,8,42,74 并评估解决自动化偏差(例如,临床医生培训和用户界面设计)的不同策略,考虑可解释AI的局限性。16 重要的是,评估研究应考虑AI系统对初级保健环境的适用性,并据此报告其结果,例如,通过使用初级保健研究共识报告项目(CRISP)声明。最终,初级保健提供者和专业组织、护理接受者和普通人群、技术专家、研究人员、行业、政府和其他利益相关者之间的多部门伙伴关系和协作对于推进初级保健中AI的负责任实施至关重要。

现在迫切需要为提供者和普通人群配备必要的知识和技能,以应对初级保健中的AI变革。初级保健提供者需要适当的培训和支持,以将AI工具适当地整合到临床实践中,确保这些技术不会给已经过度紧张的工作队伍增加额外负担。39 教育和培训计划需要快速适应,为当前和未来的临床医生配备必要的技能,以安全、道德和有效的方式将AI作为以患者为中心的护理交付的一部分使用。42 在护理可及性受限的环境中,例如在低收入和中等收入国家,AI可能越来越多地被视为某些初级保健需求的替代方案。75 当人们在面临护理可及性缺口时转向AI时,提高人口层面的数字AI健康素养变得比以往任何时候都更加重要。AI赋能的人们将能够更好地管理自己的健康,并积极寻求和倡导符合其偏好和价值观的高质量护理。展望未来,确保免费和易于获取的医疗保健策划LLMs,提供有足够护栏和保障措施的循证医学和健康信息,可能是临床医生和普通人群越来越多地使用通用LLMs的更安全替代方案。

结论

全球对初级保健转型的需求和AI的最新技术飞跃正在预示着重新构想护理交付的机会。初级保健提供者正在逐步采用AI来简化行政流程并支持他们的临床推理和知识需求。在咨询过程中,AI正在促进回归医患二元关系,减少电脑的干扰并改善以患者为中心的护理。普通人群也在转向AI以支持他们未满足的护理需求,因为全球初级保健的可及性正在恶化。提高AI健康素养已成为全球必要条件,以帮助人们应对医疗保健中AI的益处和风险。确保AI赋能初级保健系统中的公平性将需要考虑通用设计原则、健康数字决定因素、安全网,以及在整个人类多样性谱系中与患者体验和价值观的仔细一致性。重要的是,当前对护理点AI应用的关注不应分散对改善初级保健中患者结果和整体护理质量所需的大规模干预措施的注意力。在非传染性疾病全球负担日益加重的情况下,利用AI增强社区中公平和可扩展的预防性医疗保健方法可能是加速向可持续和高质量初级保健转型的途径。

贡献者

LL构思并设计了研究。LL、LTC、REP、ALN和JJM进行了文献检索和综合。所有作者都对文献解释做出了贡献,并审阅和编辑了手稿。

利益声明

我们声明无竞争利益。

致谢

我们感谢伊丽莎白·克罗顿和大卫·贾加分享他们在初级保健中使用AI听录的第一手经验。本研究由澳大利亚国家卫生和医学研究委员会(NHMRC)研究员拨款(2017642;澳大利亚)和悉尼地平线奖学金(LL)资助;牛津-鲁本·克拉伦登奖学金(REP);以及国家卫生与护理研究基金会(NIHR)应用研究中心西北伦敦(ARC NWL)和NIHR西北伦敦患者安全研究中心(NWL PSRC),基础设施支持来自NIHR帝国生物医学研究中心(ALN)。MK是国际未来健康系统中心的创始主任,该中心获得伊恩·波特基金会的资金支持。JJM承认获得医学科学院(NGR2\1210);卫生政策和系统研究联盟(2009/32034, 2012/253750);彭博慈善机构(46129,通过北卡罗来纳大学教堂山分校吉尔灵公共卫生学院);FONDECYT通过CIENCIACTIVA/CONCYTEC;英国文化协会、英国大使馆和牛顿-保莱特基金(223-2018, 224-2018);国际发展部(DFID)/医学研究委员会(MRC)/惠康全球健康试验(MR/M007405/1);福格蒂国际中心(R21TW009982, D71TW010877, R21TW011740, K01TW011478);加拿大全球挑战(GMH-POC-0335-04);加拿大国际发展研究中心(IDRC 106887, 108167);泛美全球变化研究协会(IAI CRN3036);国家癌症研究所(NCI)(1P20CA217231);巴西国家科学技术发展委员会(CNPq Brasil)(408523/2023-9);NHMRC(2022036, 2022566, 2044237);国家心肺血液研究所(NHLBI)(HHSN268200900033C, 5U01HL114180, 1UM1HL134590);国家老龄化研究所(NIA)(R01AG057531);NIHR(NIHR150261, NIHR150287, NIHR303125, NIHR306208);国家糖尿病消化和肾脏疾病研究所(NIDDK)(K23DK135798);国家精神卫生研究所(NIMH)(1U19MH098780);新南威尔士州卫生(H23/37663, DG23/7050);医疗研究未来基金(MRFF)(204223);瑞士国家科学基金会(40P740-160366);英国研究与创新(UKRI)生物技术和生物科学研究委员会(BBSRC)(BB/T009004/1);UKRI工程和物理科学研究委员会(EPSRC)(EP/V043102/1);UKRI MRC(MR/P008984/1, MR/P024408/1, MR/P02386X/1, MR/X004163/1, MR/X020851/1);惠康基金会(074833/Z/04/Z, 093541/Z/10/Z, 103994/Z/14/Z, 107435/Z/15/Z, 205177/Z/16/Z, 214185/Z/18/Z, 218743/Z/19/Z);世界糖尿病基金会(WDF15-1224);以及世界卫生组织(2021/1189041, 2022/1249357)的支持。

【全文结束】

猜你喜欢
    热点资讯
      全站热点
        全站热文