在斯坦福医疗保健(Stanford Health Care),人工智能是支持该组织推进精准医疗和改善患者结果的关键工具。然而,总裁兼首席执行官大卫·恩特威斯尔(David Entwistle)和首席数据科学家尼甘姆·沙阿博士(Nigam Shah, MD, PhD)告诉《贝克尔》(Becker's),成功实施AI需要严谨而深思熟虑的方法——这不仅仅是追逐下一个炫酷的东西。
“有很多‘哇’的因素,”恩特威斯尔先生说。“不要被所有的光鲜亮丽所迷惑。”
他说,斯坦福医疗保健的做法是,“作为CEO和整个组织,真正退一步,问自己,‘我们需要改进或解决什么?’”
位于加利福尼亚州帕洛阿尔托的健康系统在评估、实施和监控新技术,特别是AI时,采用了一种公平、有用和可靠的AI模型,即FURM评估。这种评估包括三个阶段,分别解决用例的关键方面:目的和目标(“是什么和为什么”)、实施可行性(“怎么做”)和结果评估(“效果”)。每个阶段都包含具体类别的问题,旨在指导决策。
“其中一些问题非常详细,涉及采访多个利益相关者以发现伦理上的不一致,”沙阿博士说。“有些问题是关于谁将在AI工具输出后负责下游工作流程。还有些问题是关于谁支付工具费用,谁将维护它,以及当许可证续费时,谁的预算将支付这些费用。因此,我们提前考虑了所有这些问题。它们基本上是在回答:‘它是公平的吗?’‘它是可靠的吗?’‘它是有用的吗?’‘我们可以长期在经济上维持它吗?’”
作为FURM评估的一部分,斯坦福进行伦理或利益相关者价值不匹配分析。沙阿博士表示,这涉及到询问受影响方,包括临床医生以下问题:你希望这个工具有什么作用?你最大的担忧是什么?最坏的情况是什么?
“来自不同利益相关者的答案往往非常有启发性,告诉我们需要检查什么——人们担心的是什么,”他说。
不过,并不是每种情况都需要FURM评估。为此,斯坦福创建了一个名为“负责任的AI生命周期”的过程,以确定何时需要评估。这一过程基于“安全和公平的负责任AI(RAISE)健康倡议”中制定的原则。
“如果我们谈论的是在我们的Zoom会议中使用AI进行转录,例如,我不需要FURM评估。因此,要确保我们在正确的事情上进行这些评估,”沙阿博士解释道。
经过完整的评估过程后,由执行团队成员组成的治理小组将做出最终决定,是否部署该模型。
一个值得注意的例子是斯坦福成功的AI集成案例——其高级护理计划模型。该模型获得了医疗信息和管理系统学会(HIMSS)的Davies卓越奖的认可,“该模型帮助临床医生预测患有严重疾病的患者接下来可能发生的情况,使他们更好地掌握何时启动高级护理计划对话,”恩特威斯尔先生说。“这些对话帮助患者为与终末期疾病相关的生命转变做好准备,并帮助医疗系统确保患者获得适合他们个人情况的护理。”
过去两到三年间,该模型已经改善了约6,700名患者的护理,据沙阿博士介绍。
另一个例子是斯坦福正在部署的Nuance Dragon Ambient eXperience(DAX副驾),它可以自动化患者就诊期间的临床记录。部署从初级保健诊所开始。斯坦福计划逐步扩展到各个服务线,并探索该技术在护理领域的潜在用途。
本月早些时候,斯坦福还分享了医生对新内部AI工具的积极反馈,该工具用于协助医生分享实验室结果。根据一份新闻稿,该工具利用Anthropic的Claude 3.5 Sonnet大语言模型通过Amazon Bedrock起草临床测试和实验室结果的解释,医生审查并批准后再发送给患者。
恩特威斯尔先生表示,这些努力与斯坦福提高工作流程效率的目标一致,并已带来可测量的时间节省。例如,斯坦福的实验室结果解释AI工具显示,50%的AI生成的笔记与医生原本会写的相符。
“想象一下我们开始实现的时间节省,通过查看医疗保健的不同模式,还能做些什么来创造更多的时间节省,这样患者和医生真的可以有时间互相交谈,”恩特威斯尔先生说。“在这个领域有很多令人兴奋的地方,我们认为我们只是刚刚涉足,因为前面还有更多的可能性。”
他建议医疗系统高管在评估技术时应以自己的组织为中心。“因此,在引入这些技术时,确保您的团队在最前面,使用您自己的模型来一致地评估技术。”
此外,恩特威斯尔先生建议高管们考虑到即将进入医疗行业职业的学生正在接受哪些工具的培训。
“如果他们正在接受这些工具的培训,然后来到你们的组织却没有这些工具,那么有多少会成为基本要求呢?”他说。“就像手机一样,我们现在使用的某些技术非常普遍,但在某个时候,这些技术也是新的。”
(全文结束)

