一项新的研究显示,一个开源的人工智能模型在解决复杂医疗病例方面的表现与领先的闭源工具相当。这一变化预示着更大的竞争,这将使患者和临床医生受益。
在一个可能重塑医院如何部署人工智能的发展中,一个免费的开源人工智能系统在解决常常难倒人类医生的复杂医疗病例方面,表现与一家科技巨头的领先专有工具相同。
哈佛医学院的研究人员发现,Llama 3.1 405B,一个代码公开可用的开源人工智能模型,在解决复杂医疗病例方面的表现与OpenAI的旗舰闭源模型GPT-4相当。该研究昨天发表在《JAMA Health Forum》上。
在对来自《新英格兰医学杂志》的92个诊断困难的临床场景进行测试时,这个开源挑战者正确诊断了70%的病例,而GPT-4的正确率为64%。更令人印象深刻的是,Llama将其正确的诊断作为第一建议的比例为41%,略高于GPT-4的37%。
“据我们所知,这是第一次一个开源人工智能模型在如此具有挑战性的病例中达到GPT-4的表现水平,”高级作者Arjun Manrai说,他是哈佛医学院Blavatnik研究所生物医学信息学助理教授。“Llama模型能够如此迅速地赶上领先的专有模型,真是令人震惊。患者、护理提供者和医院都将从这种竞争中获益。”
这些发现可能是医疗人工智能的一个转折点,因为医院正在考虑采用哪些人工智能系统。像Llama这样的开源模型有几个优势——它们可以在医院服务器上本地运行,从而将敏感的患者数据保留在内部,而不是发送到由商业实体运营的外部服务器。
“开源模型可能会对许多首席信息官、医院管理员和医生更具吸引力,因为将数据发送给另一个实体(即使是可信的)存在根本的不同,”该研究的主要作者Thomas Buckley解释道,他是哈佛医学院生物医学信息学系AI in Medicine项目的一名博士生。
这两个人工智能系统都依赖类似的方法——训练大量数据集,包括医学教科书、研究论文和匿名患者信息。当面对一个新的临床场景时,它们会将其与训练数据进行比较,以提出可能的诊断。
研究人员非常小心地控制了Llama可能在其训练期间接触到一些测试案例的优势。他们包括了22个在Llama训练期结束后发布的新案例,开源模型在这些新案例上的表现甚至更好,正确诊断了73%的病例,并将正确答案列为首要建议的比例为45%。
开源模型的另一个关键优势是其灵活性。“这一点至关重要,”Buckley指出。“你可以使用本地数据来微调这些模型,无论是基本的方式还是复杂的方式,使其适应你自己的医生、研究人员和患者的需求。”
开放与闭源人工智能系统之间的差距类似于早期医学技术转变,例如当开源电子健康记录系统开始挑战专有平台时。虽然像OpenAI这样的闭源开发者提供客户支持和托管服务,但开源模型需要机构自行处理设置和维护。
“作为一名医生,我看到很多关于强大的大型语言模型的关注集中在我们无法本地运行的专有模型上,”Beth Israel Deaconess Medical Center的HMS医学助理教授Adam Rodman表示,他也是这项研究的合著者。“我们的研究表明,开源模型可能同样强大,为医生和卫生系统提供了更多控制这些技术使用的权力。”
提高诊断准确性的利害关系很高。根据研究引用的2023年报告,美国每年约有795,000名患者因诊断错误而死亡或遭受永久性残疾。除了人力损失外,延迟或错误诊断还会通过不必要的检测和治疗增加医疗成本。
“如果明智地使用并负责任地整合到当前的医疗基础设施中,人工智能工具可以成为忙碌的临床医生的宝贵副驾,并作为值得信赖的诊断助手,提高诊断的准确性和速度,”Manrai说。“但重要的是,医生要帮助推动这些努力,确保人工智能为他们工作。”
随着医院越来越多地评估用于临床用途的人工智能工具,开源选项的竞争性可能导致更经济实惠且可定制的解决方案。对于患者来说,这最终可能会转化为更准确的诊断,而不必担心将他们的数据发送给第三方公司。
随着开源和闭源系统都展示了令人印象深刻的诊断能力,医疗机构的选择可能越来越取决于性能之外的因素——包括数据隐私、定制需求和实施成本。
(全文结束)

