拉斯维加斯——两年前,生成式人工智能产品席卷了医疗行业。这种能够理解和创建新文本和图像的技术被视为减轻医生和医务人员行政负担的关键工具,可以用于总结患者记录、撰写预先授权请求、与患者沟通等任务。
最近,支撑生成式AI的模型正在被编织成“AI代理”,这一术语迅速超越其前身,成为医疗领域技术专家的新宠。利用大型语言模型,代理AI可以在没有人类监督的情况下做出复杂决策,从而实现相对自主的操作。支持者认为,AI代理有潜力显著减少临床医生的职业倦怠,并通过接管琐碎任务为医疗机构节省资金。
本周,在拉斯维加斯举行的大型HIMSS医疗信息技术会议上,AI代理成为众多讨论的话题之一。初创公司和技术巨头们纷纷推销这些工具,将其宣传为廉价的数字劳动力。
其中一家公司是Notable,该公司成立于近十年前,旨在自动化医疗任务。据该公司称,目前Notable的AI已经在全美超过10,000个护理站点上线,包括CommonSpirit Health和Intermountain等系统。
但代理AI面临着与其他AI工具相同的许多问题,包括缺乏关于其有效性和准确性的独立信息,以及如果出现问题时责任不明确。研究表明,AI在医疗领域仍会犯错误,这些问题可能会阻碍其采用——无论医疗服务提供者多么迫切需要解决沉重的文档负担。
Healthcare Dive在HIMSS现场采访了Notable的首席医疗官Aaron Neinstein。Neinstein分享了为什么像谷歌和Salesforce这样的科技巨头在代理AI方面落后一步,医疗行业如何对AI提出了不公平的标准,以及为什么他拒绝向潜在客户透露Notable AI工具的准确率。
HEALTHCARE DIVE:Notable的简要介绍是什么?
AARON NEINSTEIN: 公司致力于以极低的成本将员工生产力翻倍。
如果你看看患者今天是如何接受治疗的,实际上只有一小部分是在就诊互动中完成的。以癌症患者为例:他们需要进行PET扫描、活检、看肿瘤科医生、接受化疗输液。每个步骤都需要下达指令,将指令输入电子健康记录(EHR),工作人员需要获取预先授权并提交给支付方门户,安排预约,进行预约准备等等。大部分医疗服务都是执行治疗计划的过程。而Notable专注于所有这些步骤,使用AI代理代表医疗机构执行这些任务。
你们是将所有这些服务作为一个整体打包销售给提供商,还是根据客户的需求定制代理?
更多的是后者。我在UC San Francisco做了15年的医疗IT工作,接触过各种各样的产品,并购买了许多。这对IT团队来说是一个痛苦,因为他们要管理很多供应商。理想的情况是有一个供应商能为你做很多事情。所以我们通常看到人们从一个用例开始,然后扩展到其他用例。
Notable是否与提供商的电子健康记录集成?
是的。这是我们做了十年的一个优势。你在HIMSS会议上到处都能看到AI代理。这对我们来说非常令人鼓舞,因为有很多新公司试图进入这个领域。但与EHR供应商建立关系并将代理集成到护理团队的工作流程中需要很长时间。
有了大型语言模型,任何人都可以轻松制作出酷炫的演示。但这并不意味着你可以将其部署到医疗运营中,因为集成问题很快就会使其失效。
Notable目前没有提供的AI代理有哪些是你希望提供的?
有的。一个是联络中心。联络中心成本高昂,人员流动率高,我们有很多客户询问是否可以在这里使用代理。我们将在接下来的几个月内推出一些这类产品。
另一个是预先授权和更多护士或护理协调员类型的任务,如术前和术后沟通——这两个领域我们刚刚开始与一些现有客户合作,我认为在未来一两年内将会变得非常普遍。
目前AI助手市场竞争激烈,既有像Lumeris这样的小公司,也有微软、谷歌和Salesforce这样的科技巨头。市场感觉很新但已经非常饱和。你怎么看待竞争?Notable在这个领域有什么不同之处?
我很高兴微软和Salesforce花这么多钱为我们宣传AI代理。他们的营销预算比我们做梦都多。
但实际上,如果你看看这些公司,决定医疗领域成败的是深入工作流程的细节。我不担心这些公司在深入层面的能力。
医疗领域的AI采用处于灰色地带,监管方面存在不确定性。特朗普总统推翻了拜登政府要求机构制定监管标准的指令,转而采取了一种去监管的方法,目的是让美国开发者自由创新。这种放手不管的做法对医疗行业是好事还是坏事?
这个问题没有简单的答案。我的看法是,现在比以往任何时候都更重要的是与值得信赖的合作伙伴合作,因为政府不会给出明确的答案。
就像FDA对药品所做的那样。如果这个监管机构说它是安全的,那么我就可以信任它。人们希望这种情况也可能发生在AI上,即某个第三方机构会对其进行验证,从而使医疗系统感到安心。这可能本来就是一种幻想,但现在看来可能性更小了。
但无论如何——由第三方验证算法是没有用的。你必须从工作流程开始,将AI嵌入其中,才能知道它的表现如何。
这是一个有趣的观点,因为我们刚刚看到一个健康AI标准组织推出了一个注册表,基本上就是你说的无用的东西。
我们经常被客户问到——你们的AI准确率是多少?但我们不会回答这个问题。因为这是一个过程。在部署算法时,你会使用本地数据集来调整基础算法,使其更好地适应他们的环境、工作流程和数据。
我对任何寻找AI工具的组织的警告是——如果一家公司声称其AI准确率为99%,那可能是假的。而且这实际上并不意味着它会对结果有所帮助。AI的营养标签听起来是个好主意,但不是我做出部署AI决策的方式。
我肯定你能理解,为什么潜在客户想要一个准确率,特别是在这里缺乏全面监管的情况下。此外,也没有大规模的研究来评估这些工具——我们只知道创建它们的公司告诉我们的信息。一般来说,公司都想让自己看起来很好。
当我遇到这种情况时,通常会问组织一个问题:“你们目前的人类表现如何?”
有多少人知道这个问题的答案?很少。大多数人将AI的表现与理论上的目标进行比较,而不是与当前的表现进行比较。
因此,我们在启动项目时会做的第一件事是实际测量他们的人类表现。因为在某些地方,令人惊讶的是,人类的表现准确率只有50%、60%或70%。那么这就成为了目标,而不是想象中的99%准确率的目标。让我们看看能否比目前的人类表现更好。
所以我认为,不断提醒人们并重新定义基准是非常重要的。我们要击败的不是完美,而是比我们现在拥有的更好的东西,而在大多数情况下,现状已经相当糟糕了。
鉴于许多利益相关者认为医疗行业在实施AI方面进展过快,你是如何建立信任的?
在部署时,我们会从有人工参与开始。因此,我们有人类检查算法的输出。这建立了信任。这也减少了恐惧,因为人们通常担心AI会取代他们的工作。同时,这也有助于提高模型性能。如果你在早期就有人工参与,最终会达到一个点,人们会说不再需要人工参与,通常是在几周或几个月之后。
因此,与其将其设置为一场战争,比如“AI是否足够好?”并做出二元决策——我认为这是人们容易陷入的陷阱——不如将其视为一个逐步建立信任并随着时间推移改进性能的过程。
每个人都会带着怀疑和犹豫,但AI将越来越多地成为日常生活的一部分。我们将变得更加舒适。人们的防备心也会逐渐放下。
(全文结束)

