国内健康环球医讯科学探索医药资讯

开源AI在解决复杂医疗案例上媲美顶级专有模型

Open-Source AI Matches Top Proprietary Model in Solving Tough Medical Cases | Newswise

美国英语医学
新闻源:Newswise
2025-03-15 07:00:00阅读时长5分钟2084字
开源AI闭源AI医疗案例Llama3.1405BGPT-4诊断准确性患者受益临床应用数据隐私定制性

内容摘要

一项新的研究表明,一个开源的AI模型在解决复杂的医疗案例方面与领先的闭源工具表现相当。这一转变预示着更大的竞争,将使患者和临床医生受益。

一项新的研究显示,一个开源的人工智能(AI)模型在解决复杂医疗案例方面与领先的闭源工具表现相当。这种转变预示着更大的竞争,这将使患者和临床医生受益。

人工智能可以通过多种方式改变医学,包括作为忙碌的临床医生的可靠诊断助手。

在过去两年中,专有的AI模型(也称为闭源模型)在解决需要复杂临床推理的难以破解的医疗案例方面表现出色。值得注意的是,这些闭源AI模型的表现超过了开源模型,开源模型之所以被称为开源,是因为其源代码公开且可以被任何人修改和调整。

开源AI是否赶上了?

答案似乎是肯定的,至少对于一种名为Llama 3.1 405B的开源AI模型来说是如此。根据由哈佛医学院研究人员领导并得到美国国立卫生研究院资助的一项新研究的结果,该研究还与哈佛附属的贝斯以色列女执事医疗中心和布莱根妇女医院的临床医生合作进行。

该研究结果于3月14日发表在《JAMA Health Forum》杂志上,显示挑战者开源AI工具Llama 3.1 405B与GPT-4(一种领先的专有闭源模型)表现相当。在分析中,研究人员比较了这两种模型在92个令人困惑的病例上的表现,这些病例来自《新英格兰医学杂志》每周发布的诊断难题。

研究结果表明,开源AI工具变得越来越有竞争力,并可能为专有模型提供有价值的替代方案。

“据我们所知,这是开源AI模型首次在如此具有挑战性的病例上与GPT-4的表现相匹配,”资深作者、哈佛医学院Blavatnik研究所生物医学信息学助理教授Arjun Manrai说。“Llama模型能够这么快地赶上领先的专有模型,真是令人震惊。患者、护理提供者和医院都将从这种竞争中受益。”

开源和闭源AI系统的优缺点

开源AI和闭源AI在几个重要方面有所不同。首先,开源模型可以在医院的私有计算机上下载和运行,从而将患者数据保留在内部。相比之下,闭源模型在外部服务器上运行,要求用户将私人数据传输到外部。“开源模型对许多首席信息官、医院管理人员和医生来说可能更有吸引力,因为将数据传送到医院以外的实体,即使是受信任的实体,本质上也是不同的,”该研究的主要作者、哈佛医学院生物医学信息学系AI in Medicine项目博士生Thomas Buckley说。

其次,医疗和IT专业人员可以调整开源模型以满足独特的临床和研究需求,而闭源工具通常更难定制。“这一点非常关键,”Buckley说。“你可以使用本地数据来微调这些模型,无论是基本的方式还是复杂的方式,使它们适应你自己的医生、研究人员和患者的需求。”

第三,像OpenAI和Google这样的闭源AI开发商会托管自己的模型并提供传统的客户支持,而开源模型则将模型设置和维护的责任放在用户身上。至少到目前为止,闭源模型更容易与电子健康记录和医院IT基础设施集成。

开源AI与闭源AI:解决具有挑战性的临床案例的成绩单

开源和闭源AI算法都经过大量数据集的训练,包括医学教科书、同行评审的研究、临床决策支持工具和匿名患者数据,如病例研究、测试结果、扫描和确诊。通过以超高速度审查这些庞大的材料,算法学习模式。例如,病理切片中的癌性和良性肿瘤看起来是什么样的?心力衰竭的最早征兆是什么?如何区分CT扫描中正常的结肠和发炎的结肠?当面对新的临床场景时,AI模型将传入的信息与训练期间吸收的内容进行比较,并提出可能的诊断。

在他们的分析中,研究人员用70个之前用于评估GPT-4性能的具有挑战性的NEJM病例测试了Llama,这些病例在Adam Rodman(贝斯以色列女执事医疗中心的哈佛医学院助理教授,也是这项新研究的共同作者)领导的一项早期研究中进行了描述。在这项新研究中,研究人员增加了22个在Llama训练期结束后发布的新病例,以防止Llama在基础训练期间无意中接触到这70个已发布的病例。

开源模型展现出了真正的深度:Llama在70%的病例中做出了正确的诊断,而GPT-4的正确率为64%。它还将正确选择作为其首要建议的比例为41%,而GPT-4为37%。对于22个较新的病例子集,开源模型得分更高,在73%的情况下做出了正确的判断,并在45%的情况下将其最终诊断作为首要建议。

“作为一名医生,我看到很多关于强大的大型语言模型的关注都集中在我们无法在当地运行的专有模型上,”Rodman说。“我们的研究表明,开源模型可能同样强大,给医生和卫生系统更多控制这些技术使用的权力。”

根据2023年的报告,每年在美国,由于诊断错误,约有795,000名患者死亡或遭受永久性残疾。

除了对患者的直接伤害外,诊断错误和延迟还会给医疗保健系统带来严重的财务负担。不准确或延迟的诊断可能导致不必要的检查、不适当的治疗,有时还会导致随着时间推移变得更加难以处理且成本更高的严重并发症。

“如果明智地使用并负责任地整合到当前的医疗基础设施中,AI工具可以成为忙碌的临床医生的宝贵副驾,并作为值得信赖的诊断助手来提高诊断的准确性和速度,”Manrai说。“但至关重要的是,医生要帮助推动这些努力,确保AI为他们服务。”

作者、资金和支持

其他作者包括Byron Crowe和Raja-Elie E. Abdulnour。

该项目得到了国家心肺血液研究所的K01HL138259奖和哈佛医学院院长创新奖的支持。

Crowe报告称在提交的工作之外从Solera Health获得了个人费用。Rodman报告称在提交的工作之外从戈登和贝蒂·摩尔基金会获得了资助。


(全文结束)

声明:本文仅代表作者观点,不代表本站立场。

本页内容撰写过程部分涉及AI生成(包括素材的搜集与翻译),请注意甄别。

7日热榜