人工智能正以多种方式改变医学领域,其中作为临床诊断辅助工具的潜力尤为显著。过去两年中,专有AI模型(闭源模式)在解决需要复杂临床推理的疑难病例方面表现突出,而开源AI模型因源代码公开可被修改的特性,始终落后于专有模型。
最新由美国国立卫生研究院资助、哈佛医学院联合贝斯以色列女执事医疗中心和布列根妇女医院开展的研究表明,这一差距正在缩小。发表于《美国医学会健康论坛》的研究显示,开源AI工具Llama 3.1 405B在92个《新英格兰医学杂志》收录的疑难病例诊断中,表现与GPT-4持平。
哈佛医学院生物医学信息学副教授、资深作者阿俊·马纳莱(Arjun Manrai)指出:"这是首次有开源AI模型在医生评估中达到GPT-4的水平。Llama系列模型的进步速度令人震撼,这种竞争将使患者、医疗机构和医疗体系多方受益。"
开源与闭源AI系统的核心差异
- 数据管理:开源模型可在医院内部服务器部署,确保患者数据不出域;闭源模型需通过外部服务器处理数据。
- 定制能力:开源系统允许医疗机构使用本地数据进行模型微调,哈佛医学院生物医学信息学系博士生、第一作者托马斯·巴克利(Thomas Buckley)强调,这使模型能精准适配医疗机构的特定需求。
- 运维责任:闭源模型由OpenAI等厂商提供运维支持,而开源模型需用户自行维护。目前闭源系统在电子病历集成方面更具优势。
临床诊断能力对比
研究团队测试了Llama在92个《新英格兰医学杂志》疑难病例中的表现,其中包括22个超出其训练时间范围的最新病例。结果显示:Llama整体诊断准确率达70%(GPT-4为64%),首次推荐正确诊断占比41%(GPT-4为37%)。对于新增病例,开源模型表现更优,准确率达73%,首次推荐正确率45%。
研究共同作者、贝斯以色列女执事医疗中心医学副教授亚当·罗德曼(Adam Rodman)指出,该成果表明开源模型在诊断准确性和速度方面具有同等效能,同时赋予医疗系统更多技术应用控制权。
据2023年报告统计,美国每年约79.5万名患者因诊断错误死亡或永久残疾。诊断延迟和错误会导致不必要的检查、错误治疗及并发症,给医疗系统带来沉重经济负担。研究团队强调,AI工具若合理整合到现有医疗体系,可作为医生的"智能副驾驶"提升诊疗效率,但关键在于医生群体需主导技术发展方向。
研究经费来源于美国国家心肺血液研究所(K01HL138259)及哈佛医学院院长创新奖。部分研究者声明存在与医疗企业的合作利益关系。
【全文结束】

