使用大型语言模型从西班牙语真实世界电子健康记录中提取肿瘤学数据Oncology Data Extraction with Large Language Models from Real-World Electronic Health Records in Spanish

环球医讯 / AI与医疗健康来源:papers.ssrn.com西班牙 - 英语2025-08-01 09:31:29 - 阅读时长2分钟 - 616字
本研究探索了生成式人工智能与大型语言模型(LLMs)在西班牙语临床记录中的肿瘤学数据提取能力,通过Ollama框架调用7个开源模型并与GPT-4.5对比,采用上下文学习策略生成包含12类肿瘤学实体的JSON文件。结果显示GPT-4.5平均F1得分为0.88,显著优于开源模型,其中llama 3表现最佳。研究证实尽管本地化开源模型尚无法替代人类专家,但通过针对性后处理可显著提升性能,为医疗AI应用提供了成本效益分析和实践优化方向。
健康电子健康记录肿瘤学信息提取人工智能大型语言模型西班牙语临床记录模型性能开源模型定制化后处理
使用大型语言模型从西班牙语真实世界电子健康记录中提取肿瘤学数据

摘要

背景与目的:人工智能(AI)在医疗系统中的应用可通过降低成本提升患者护理质量和运营效率。本研究旨在探索生成式人工智能与大型语言模型(LLMs)在西班牙语真实临床记录中的肿瘤学信息提取能力。

方法:使用Python的Ollama框架调用7个Ollama模型及GPT-4.5,采用上下文学习策略。模型生成包含12类肿瘤学命名实体的JSON文件,测试数据集由100份临床记录组成。

结果:通过与乳腺癌专家标注的金标准对比,GPT-4.5在12类实体中的平均F1得分为0.88,其中Ki 67值检测表现最佳。开源模型中,llama 3作为性能最优的LLM聊天机器人,其效果仍显著落后于GPT-4.5。

结论:本地部署的开源模型在精准度上尚未达到人类专家水平。但针对特定模型(如llama 3)的输出进行定制化后处理,可显著提升性能。

资助信息:本研究获得西班牙科学与创新部(MICINN)通过PID2020-116898RB-I00/AEI/10.13039/501100011033项目、马拉加大学与安达卢西亚政府通过UMA20-FEDERJA-045项目,以及辉瑞公司(Pfizer S.L.)、马拉加大学和马拉加大学基金会(UMA-FGUMA-Pfizer)的私人资金支持。

利益冲突:所有作者声明无任何可能影响研究结果的经济利益或个人关系。

关键词:信息抽取,自然语言处理,电子健康记录,肿瘤学,西班牙语

【全文结束】

大健康

猜你喜欢

  • TileDB与Databricks宣布合作 利用多模态数据推动医疗与生命科学领域人工智能发展TileDB与Databricks宣布合作 利用多模态数据推动医疗与生命科学领域人工智能发展
  • Google的人工智能设计药物将于今年进入人体试验阶段Google的人工智能设计药物将于今年进入人体试验阶段
  • AI模型通过血糖骤升揭示无症状期糖尿病潜在风险AI模型通过血糖骤升揭示无症状期糖尿病潜在风险
  • 综合肿瘤学进入等式:加州大学尔湾分校健康系统迎来新任癌症负责人综合肿瘤学进入等式:加州大学尔湾分校健康系统迎来新任癌症负责人
  • 正式指南可帮助人工智能精准操控和定位医用针具正式指南可帮助人工智能精准操控和定位医用针具
  • 机器人手术实现里程碑:自主完成胆囊切除手术机器人手术实现里程碑:自主完成胆囊切除手术
  • LG发布新一代精准医疗人工智能模型EXAONE Path 2.0LG发布新一代精准医疗人工智能模型EXAONE Path 2.0
  • 人工智能“科学家”实验室是否设计出潜在新冠治疗方法?人工智能“科学家”实验室是否设计出潜在新冠治疗方法?
  • 民族药理学、组学技术与表观遗传调控:利用药用植物治疗神经退行性疾病的现代方法民族药理学、组学技术与表观遗传调控:利用药用植物治疗神经退行性疾病的现代方法
  • 自然语言处理如何助力医生自然语言处理如何助力医生
大健康
大健康

热点资讯

大健康

全站热点

大健康

全站热文

大健康