照片来源:杜克健康中心
医疗专业人员在日常工作中越来越依赖人工智能(AI),特别是在处理耗时的任务(如撰写医疗笔记)时。对此,杜克大学的研究人员正在开发工具,以评估这些人工智能工具在医院中的表现。
为什么这很重要: Axios此前曾报道,全美各地的医疗系统正在大力投资人工智能,以此减轻医生的职业倦怠并可能改善护理质量。然而,人们仍然担忧这些工具并不完美,有时会产生所谓的“幻觉”错误,可能会对患者产生负面影响。
大背景: 在医疗领域使用人工智能的吸引力显而易见。一项研究发现,人工智能将记录笔记的时间减少了20%,并将下班后的工作量减少了30%。根据美国医学协会的一项调查,近三分之二的医生现在在日常工作中使用某种形式的人工智能。然而,杜克健康中心首席数据科学家迈克尔·彭奇纳(Michael Pencina)告诉Axios,如果出现错误——例如,转录中写错了药物名称——可能会对患者产生“下游后果”。
最新动态: 杜克大学研究人员本月在两项研究中公布了一种新框架,用于评估人工智能模型并监控它们随时间的表现。该内部工具结合了人工评估、自动化评分和模拟边缘案例情景。其中一项研究评估了人工智能在记录医疗笔记中的表现;另一项则研究了它在Epic(一种电子健康记录软件)中生成患者回复的能力。共同作者彭奇纳和杜克大学生物统计学教授洪川(Chuan Hong)表示,目标是确保这些工具准确、流畅地传递信息,并避免偏见。
深入探讨: 医疗笔记工具的研究发现,人工智能通常能够生成流畅且清晰的笔记,但偶尔会出现不准确的情况。例如,在处理新药和药物时,其性能显著下降。
在关于Epic中起草患者回复的研究中,研究人员发现人工智能生成的回复总体上是可以接受的,只需要医生进行少量修改。然而,它偶尔会遗漏关键信息,导致医生需要进行重大编辑。
专家观点: 彭奇纳告诉Axios,医疗系统需要找到一种方法来跟上人工智能工具快速变化和发展的步伐。“我们需要建立一个良好的上市后监控系统,在这些解决方案部署到现实世界中时对其进行持续监控,”他说。“技术发展迅速且不断演变,”他补充道,“我们进行这项研究的部分原因是为了了解哪些高效的指标可以持续运行,从而捕捉任何可能出现的问题。”
未来展望: 彭奇纳表示,目标是首先在杜克健康中心内部推出其人工智能监控框架,一旦对其性能满意,就可以与其他医疗系统分享。
(全文结束)

