杜克大学研究人员提出评估大型语言模型的框架 - AI与医疗健康

杜克大学研究人员提出评估大型语言模型的框架Duke Researchers Offer Frameworks for Evaluating Large-Language Models

环球医讯 / AI与医疗健康来源：www.hcinnovationgroup.com美国 - 英语2025-06-16 23:20:00 - 阅读时长2分钟 - 917字

杜克大学医学院的研究人员开发了两个新的框架，旨在评估大型语言模型在医疗保健领域的性能、安全性和可靠性，确保这些AI系统在临床环境中达到最高标准。

在上周美国国家医学科学院宣布了一项行为准则以指导负责任和公平的人工智能开发后，杜克大学医学院的研究人员开发了两个新的框架，旨在评估大型语言模型在医疗保健领域的性能、安全性和可靠性。

这两项研究分别发表在《npj数字医学》和《美国医学信息学协会杂志（JAMIA）》上，提供了一种新方法，以确保在临床环境中使用的AI系统达到最高的质量和问责标准。

随着大型语言模型越来越多地嵌入到医疗实践中——生成临床笔记、总结对话并协助患者沟通——卫生系统正在努力寻找一种既严格又可扩展的方式来评估这些技术。由杜克大学生物统计学和生物信息学助理教授Chuan Hong博士领导的研究旨在填补这一空白。

《npj数字医学》的研究介绍了一个名为SCRIBE的结构化评估框架，用于评估环境数字记录工具。根据杜克大学的说法，SCRIBE结合了专家临床评审、自动化评分方法和模拟边缘案例测试，以评估这些工具在准确性、公平性、连贯性和韧性等维度上的表现。

“环境AI在减轻临床医生文档工作量方面具有真正的潜力，”Hong在一份声明中说。“但深思熟虑的评估是必不可少的。没有它，我们可能会实施那些无意中引入偏见、遗漏关键信息或降低护理质量的工具。SCRIBE旨在帮助防止这种情况。”

另一项相关研究发表在《JAMIA》上，该研究应用了一个互补框架来评估Epic平台使用的大规模语言模型起草回复患者消息的表现。研究将临床医生的反馈与自动化指标进行比较，以评估清晰度、完整性和安全性等方面。虽然研究发现这些回复在语气和可读性方面表现良好，但也揭示了回复完整性方面的差距——强调了持续评估在实践中的重要性。

“这项工作有助于缩小创新算法与实际临床价值之间的距离，”杜克健康首席数据科学家Michael Pencina博士在一份声明中表示。他是两项研究的共同作者。“我们展示了如何负责任地实施AI，并且严格的评估必须是技术生命周期的一部分，而不是事后考虑。”

研究人员表示，这些框架为医疗保健领域负责任地采用AI奠定了基础。它们为临床领导者、开发者和监管机构提供了工具，可以在部署前评估AI模型并在部署后监控其性能——确保它们支持护理交付而不损害安全或信任。

(全文结束)