医疗AI评估存在碎片化和不一致性Healthcare AI Assessment "Fragmented and Inconsistent"

环球医讯 / AI与医疗健康来源:www.insideprecisionmedicine.com美国 - 英语2024-10-15 23:00:00 - 阅读时长2分钟 - 951字
一项新研究指出,大多数用于医疗场景的大规模语言模型(LLM)评估方式存在碎片化和不一致性,未能涵盖真实的患者信息。
医疗AI评估碎片化不一致性真实患者数据《美国医学会杂志》临床实践评估维度基于共识的评估方法
医疗AI评估存在碎片化和不一致性

大多数用于医疗场景的大规模语言模型(LLM),如AI聊天机器人,正在以一种碎片化和不一致的方式进行评估,这种方式并未涵盖真实患者的复杂信息,研究人员警告称。一项发表在《美国医学会杂志》(JAMA)上的新研究发现,只有五分之一的评估研究包含了反映临床实践复杂性的实际患者数据。大多数研究则集中在回答医学考试的准确性上,这导致对公平性、偏见、毒性及部署等方面的考虑有限。

研究者表示,这些AI程序在假设的医学问题上进行测试,这被比喻为通过多项选择题问卷来认证汽车是否适合上路。“真实患者护理数据涵盖了临床实践的复杂性,可以全面评估LLM的性能,使其与临床表现相匹配,”他们坚持认为,并呼吁建立基于共识的评估方法。

该研究的共同第一作者、斯坦福大学哈克尼斯研究员露西·奥尔-埃温(Lucy Orr-Ewing)及其团队对519项研究进行了系统回顾,并根据五个组成部分对现有的医疗保健领域的LLM评估进行了分类。这些组成部分包括:数据类型;医疗任务;自然语言处理(NLP)和自然语言理解(NLU)任务;评估维度;以及医疗专业领域。

最常见的医疗任务评估包括医学知识,如回答医学执照考试问题和诊断。较少研究的任务包括行政任务,如分配计费代码和开具处方,以及NLP和NLU任务,如总结和对话。

几乎所有研究(95.4%)都使用准确性作为主要评估维度。公平性、偏见和毒性仅在15.8%的研究中进行了评估,部署考虑因素在4.6%的研究中进行了评估,校准和不确定性仅在1.2%的研究中进行了评估。在医疗专业领域中,超过四分之一的研究涉及通用医疗应用,其次是内科手术和眼科。不到1%的研究涉及核医学、物理医学和医学遗传学。

“这项系统回顾强调了在评估中使用真实患者护理数据的必要性,以确保与临床条件的一致性,”奥尔-埃温总结道。“建立基于共识的任务定义和评估维度框架至关重要。”研究者指出,尽管世界卫生组织的伦理和治理指南以及美国关于AI的行政命令提供了宝贵的基础,但针对LLM评估的具体指标和方法仍然缺乏。“医疗AI联盟在这方面取得了令人鼓舞的进展,该联盟于2024年5月成立了工作组,以建立医疗保健领域LLM的指标和方法,”他们提到。“这一倡议旨在创建一个类似于传统AI模型的基于共识的保证标准指南。”


(全文结束)

大健康

猜你喜欢

  • AI 在医疗保健领域的应用:药物发现、数据和影像AI 在医疗保健领域的应用:药物发现、数据和影像
  • FDA发布数字健康与人工智能术语表FDA发布数字健康与人工智能术语表
  • 基于知识而非捷径训练的医疗AI基于知识而非捷径训练的医疗AI
  • AllClear ID® 推出个性化医疗智能健康银行 OneAllClear ID® 推出个性化医疗智能健康银行 One
  • Perceiv AI 欢迎 Simona Skerjanec 加入董事会Perceiv AI 欢迎 Simona Skerjanec 加入董事会
  • 弗吉尼亚理工大学与儿童国家医院合作推进儿科医疗AI应用弗吉尼亚理工大学与儿童国家医院合作推进儿科医疗AI应用
  • Anthropic CEO 认为 AI 将帮助我们延长寿命和治愈疾病,以下是具体方法Anthropic CEO 认为 AI 将帮助我们延长寿命和治愈疾病,以下是具体方法
  • HealthLynked 为人工智能驱动的医疗保健助手 ARi 提交非临时专利HealthLynked 为人工智能驱动的医疗保健助手 ARi 提交非临时专利
  • HealthLynked 为人工智能驱动的医疗保健助手 ARi 申请非临时专利HealthLynked 为人工智能驱动的医疗保健助手 ARi 申请非临时专利
  • 与佛罗里达医疗保险公司总裁伊万·图尼斯的访谈与佛罗里达医疗保险公司总裁伊万·图尼斯的访谈
大健康
大健康

热点资讯

大健康

全站热点

大健康

全站热文

大健康