一项最近在佛罗里达州好莱坞举行的2025年普通内科医学会(SGIM)年度会议上展示的研究表明,一种新型生成式人工智能(genAI)工具在为医生起草对患者的在线问题回复时表现参差不齐。
俄亥俄州哥伦布市俄亥俄州立大学医学院内科助理教授Natalie Lee博士领导的研究团队对201个由genAI生成的回复进行了主题分析,这些回复是对患者真实在线问题的答复。基于GPT-3.5的Epic草稿工具经过四到五轮的修订来构建模型。研究团队将回复分为五个类别:建立关系、收集信息、准确和专业地传递信息、促进下一步行动和患者决策、回应情绪。初级保健提供者评审人员开发了一个编码系统,以定义每个领域的优势和局限性。
“73%的草稿存在局限性”
Lee告诉《Medscape Medical News》:“我们在所有沟通领域都观察到了优势和局限性。”数据显示,60%的草稿被认为是“可用的”,而73%的草稿存在局限性。
例如,在信息传递方面,该模型在提供关于医学检查预期结果的准确信息方面表现良好,但在患者询问肾脏捐赠时却提供了关于献血的信息。研究人员报告称,65%的人工智能信息传递回复对临床背景做出了错误假设,36%对工作流程做出了错误假设,24%的回复“完全错误”。
在回应情绪方面,一个局限性的例子是当患者表达了与某种疾病相关的长期情感痛苦时,回复没有承认患者的情绪。
总体而言,研究人员写道,“尽管生成式人工智能草稿通常包含可用部分,但由于在提供准确信息、提出关键问题和回应患者情绪等更需要认知能力的关键领域存在不足,其净增值可能有限。进一步优化是真正增强患者护理和提供者体验所必需的。”
这项工作提供了更多关于人工智能有用性的数据,因为随着患者问题数量的空前增加,对协助处理这些问题的需求也在增加。“我们如何整合生成式人工智能技术,以便在保持沟通和护理质量的同时减轻提供者的负担?这还不清楚我们是否已经解决了这个问题。”她说。
框架增加了新的评估
休斯顿纪念赫尔曼医疗系统的急诊医生Owais Durrani博士告诉《Medscape Medical News》,作者使用的新颖框架来评估医疗沟通的质量使这项研究特别重要。
“我们经常根据表面效率指标来评判人工智能工具——节省了多少点击次数,节省了多少秒。但这项研究着眼于更深层次的临床领域。研究发现,人工智能在低风险领域如促进下一步行动或基本建立关系方面表现更好,但在提供准确信息或回应情绪方面则表现不佳,这确实突显了存在的差距。这提醒我们,人工智能可以支持临床过程,但不应取代人类判断,特别是在需要同理心、细微差别或临床推理的患者互动中。”
他表示他对人工智能通信持开放态度,但也很谨慎。“许多草稿过于冗长、模糊,或者错过了回答患者实际问题所需的临床细微差别。”他说,“医生们必须从这些噪音中筛选并重新编写内容,这在很多情况下花费的时间与自己撰写一样多,甚至更多。目前,我认为人工智能生成的消息更像是一个起点而不是解决方案。”
Lee和Durrani报告说没有相关的财务关系。
Marcia Frellick是一位独立的芝加哥医疗记者。
(全文结束)

