UpToDate推出生成式AI临床决策支持工具 - AI与医疗健康

UpToDate——这一全球数千家医院使用的流行临床研究与信息数据库——正式推出了人工智能解决方案。

一位目前使用竞争工具的家庭医生表示："这将如同在[竞争对手]身上投下炸弹。"

UpToDate Expert AI是一款临床决策支持工具，利用生成式人工智能回答医疗专业人员的问题，其依据来自该平台广泛的文献库以及7600多位医学专家的输入。UpToDate母公司沃尔特斯·克鲁威尔健康(Wolters Kluwer Health)首席医疗官彼得·博尼斯博士在接受《新闻周刊》独家采访时透露，该工具将于10月起面向北美约25万名用户推出，随后将很快全面上市。

博尼斯表示："多年来，我们尽一切可能预测并回答[临床医生的]问题，然后在诊疗点或接近诊疗点时，用该领域绝对专家编写的最佳信息来回答这些问题。"

UpToDate的这一公告为医疗保健AI领域繁忙的夏季画上了句号。行业领导者如Epic、微软、Doximity、athenahealth和甲骨文等公司一直在快速推出新功能。

但许多现有工具专注于通过转录临床就诊、起草笔记和制定申诉信来减轻行政负担。很少有工具涉足临床决策支持领域，而这一领域风险更高，法律问题也更棘手。

博尼斯表示，UpToDate在这一领域具有独特优势。300多万名临床医生在过去三十多年里一直信任该工具，并已使用它来寻找处理复杂疑难医疗案例的最佳实践。

博尼斯指出，目前患者无法确认医生建议是否正确。他表示，医患关系建立在"巨大的信任"基础上，研究人员多年来一直在研究验证医生建议的方法。

博尼斯说："如果你总结相关文献，基本上会发现大约三分之二的临床接触——即典型和初级护理——会产生问题。但在UpToDate等信息资源出现之前，这些问题中只有30%能得到解答。然而，如果你解答所有问题，你每天将改变5到8个管理决策。"

博尼斯表示，多年来对UpToDate的研究发现，当医疗服务提供者使用该软件查询时，他们会在某些有意义的方面改变自己的行为或说法。

他说："想象一下，你可能得到一条建议，而一条信息可能会完全改变或修改这条建议，这有多可怕。这就是风险所在。"

公共大型语言模型(LLMs)如ChatGPT和Gemini的出现加剧了这些风险。尽管这些模型容易出现幻觉和偏见，可能导致错误或不完整的建议，但医生们仍在将其用作临床决策支持。Fierce Healthcare和医生社交网络Sermo在2024年10月进行的一项调查发现，76%的医生使用通用大型语言模型来辅助临床决策。

沃尔特斯·克鲁威尔健康公司研究了一些在实践中使用的流行大型语言模型。博尼斯拒绝透露具体名称，但表示他们的检查发现了可能导致患者伤害的多个错误。其中一个模型建议一位不需要的患者进行颈动脉手术。另一个建议可以突然停用抗抑郁药，尽管该药物有众所周知的戒断反应。还有一个表示应避免对鸡蛋过敏的患者接种流感疫苗，尽管数据显示接种是安全的。

博尼斯说："这不是陈旧的问题。这是新问题。今天仍在继续。医生此刻可能正在使用这些工具来回答问题。"

他补充说，这些模型的响应不一致："我们还发现了搜索可靠性问题，其他人也记录了这一点。你用完全相同的短语搜索两次，相隔一小时或一天，会得到不同的结果。或者如果你对同一概念稍作不同搜索，也会得到不同的结果。"

他认为，UpToDate Expert AI可以减少对这些通用模型的依赖，让临床医生以更安全、更可靠的方式获得支持。根据博尼斯的说法，UpToDate的AI模型与更广泛的网络隔绝，仅从系统库中经过同行评审、专家撰写的文献中获取信息——这消除了幻觉的可能性。

沃尔特斯·克鲁威尔健康公司还召集了来自各种专业的7600多名医学专家，解答他们专业领域内出现的问题，将他们在自己实践中会运用的相同临床判断和推理融入答案中。他们的工作得到了55名副编辑医师内部团队以及通常是大学教授的外部编辑的补充。

博尼斯谈到这些模型的培训者时说："他们理解证据、现实世界患者护理的交叉点，以及并非所有事情都有随机研究的事实，他们有自己的判断。我们如何使这种判断透明化并将其呈现出来，以便分享真正世界专家的判断和思维方式，让每个人都能接触到？"

UpToDate Expert AI的第一版在过去两年中在实验室环境中进行了测试，使沃尔特斯·克鲁威尔健康公司能够收集客户反馈并改进技术。几家医疗机构有限度地接触了该模型，每家约有五名成员能够测试它。

博尼斯表示，原始版本已经"退役并替换"为更完善的产品，该产品将面向少数机构以有限用户数量推出。在未来几个月内，他们将把功能扩展到"数十万"UpToDate用户，先从美国开始，然后开放国际访问。

博尼斯表示，UpToDate Expert AI仍然不完美。早期测试者最大的抱怨是延迟问题。沃尔特斯·克鲁威尔公司拒绝分享模型生成答案所需时间的平均值。一位发言人告诉《新闻周刊》："我们还没有可分享的基准，但速度是我们开发重点的关键部分。我们专注于提供快速响应，但从不以临床可靠性为代价。"

用户还表示希望文本更简洁、图形更多。

"但在准确性方面，它表现相当不错，所以我们对此感到鼓舞，"博尼斯说。

《新闻周刊》独家演示了该工具。如果查询缺少上下文，它会描述关于患者的"假设"。然后，它会用指向临床研究的回链填充答案，以便提问者可以跟随模型的决策过程。

例如，AI模型被问到："我有一位患者，她母亲43岁时患上结肠癌。她今年27岁。我应该何时开始结肠癌筛查？"

它的回答首先澄清了假设：该患者没有已知的结肠癌高风险遗传综合征，如林奇综合征或家族性腺瘤性息肉病(FAP)，这些会增加发病几率并可能影响建议。它还假设家族史仅限于一位一级亲属。

然后它列出了建议，并通过链接到UpToDate中验证这些步骤的部分，支持推理过程的全部52个步骤。

UpToDate Expert AI还对更关系型的问题提供建议。《新闻周刊》问道："我是一名儿科医生，正在管理一位拒绝推荐疫苗的婴儿父母。我该怎么办？"

该模型假设拒绝并非由于医疗禁忌，而是由于护理者犹豫，且婴儿本身健康状况良好。它提供了与护理者交谈的多种建议，并建议如果护理者坚持，可以尝试妥协于有限的疫苗组合。

临床决策支持工具并非旨在取代医生的教育和专业知识，而是补充它们。在美国，每年约有40万人死于误诊。理想情况下，AI可用于检查提供者的直觉并提出他们自己未能想到的想法。

然而，现实世界并不理想。虽然医生认为他们能识别AI响应中的错误，但并不总能发现它们。

博尼斯说："存在一个自动化问题，这也是FDA非常关注和担忧的，即[AI模型]在给出响应时效率如此之高，以至于你没有充分参与该响应进行真正思考，而是在没有给予适当考虑的情况下采取行动。"

此外，最近的研究表明，依赖AI模型可能会降低医生在没有AI的情况下做出准确临床判断的能力。

当被问及是否担心AI使医生技能退化时，博尼斯回忆起他八年级的代数老师，这位老师拒绝让学生使用计算器，"以防我们被困在荒岛上"。在计算器几乎在所有手机上都可用的今天，这看起来很傻。

他继续说，生成式AI可能会像计算器一样，成为我们无条件使用的技术，而不担心它会削弱我们自身的能力。毕竟，计算器比心算更可靠。

但博尼斯确实担心那些将与这些工具一起成长的医学生和住院医师，他们可能无法充分发展自己的临床推理能力。

他说："医学是一个持续学习的系统。你必须跟上你的领域。你必须能够直接将知识应用于患者。如果你要依赖工具，我认为从已发表的内容中至少有足够的担忧，我们应该密切关注这一点。"

【全文结束】

快速导航

国内健康

环球医讯

健康科普

医药资讯

家医百科

UpToDate推出生成式AI临床决策支持工具UpToDate Launches Gen AI For Clinical Decision Support - Newsweek