大型语言模型(LLMs)越来越多地应用于医疗记录,并被提议用于临床决策支持。我们认为,LLMs在医学领域的未来必须基于透明且可控的开源模型。开放性使医疗工具开发者能够控制底层AI模型的安全性和质量,同时允许医疗专业人员对这些模型进行问责。基于这些原因,未来的方向是开放的。
大型语言模型(LLMs)有望通过减少行政负担(例如通过文本摘要任务)、改进信息检索以及增强诊断和治疗程序,为医学带来显著价值。尽管对其短期和长期影响存在怀疑者和热情支持者,但其在医疗记录和摘要中的采用率正在增加。选择一个LLM及其供应商对于早期采用者来说是一个具有挑战性的战略决策,他们希望将LLM集成到临床流程中。这一决策不仅涉及技术层面,还反映了更广泛的组织价值观和优先事项。在这种背景下,一个关键问题出现了:在选择用于医疗应用的基础LLM框架时,开放性在多大程度上成为决定性因素?
在某些医疗应用和部署环境中,可能特别需要优先考虑易于部署和维护以及技术可靠性,这更符合提供专有支持和定义框架的封闭模型。相反,在开发本地优化的临床决策支持系统时,可能需要倾向于开源LLM,提供最大透明度、适应最新医疗指南和本地协议的能力,以及针对特定医疗场景进行校准和优化的能力。在这里,我们讨论了从完全开源的LLM(旨在提供对每个部分的全面透明度和访问权限)到完全封闭的模型(制造商故意限制对源代码、模型权重和训练过程及数据的访问)的整个开放性谱系中的优缺点。
为什么LLM的开放性问题对医学如此重要?人工智能(AI)系统通常被视为黑箱,LLM内部的技术工作原理也确实不被外行人和AI研究人员充分理解。这些系统的完全理解不足,无意中的细微变化可能会对其输出质量产生巨大影响。为了更好地理解和允许持续改进,我们认为,部署在医学领域的LLM必须提供最大程度的透明度、全面监督和最大控制。为了可靠地将LLM作为医疗器械的一部分运行,深入了解和控制LLM架构及其来源是必要的。这包括对训练数据集、方法论和更新过程的知识和/或控制。专有的封闭源代码LLM与这些必要条件形成鲜明对比,因为其内部工作原理和修订过程对外界审查是隐藏的。当前市场领先的封闭源代码模型并未向医疗器械开发者提供带有长期支持的静态模型,或提供详细解释和更改理由的模型。换句话说,约束和适应过程继续在实时模型上通过不透明且定义不清的过程进行,这对开发者来说是不透明的。2023年12月,ChatGPT用户注意到聊天机器人变得懒散。这一现象的确切原因既未被研究人员识别,也未被其运营公司披露。此外,AI研究人员评估了2023年3月和6月版本的GPT-3.5和GPT-4在多个不同任务上的表现,结果显示,同一LLM服务的行为在相对较短的时间内发生了显著变化,突显了对LLM进行持续监控的必要性。此外,如果运营公司停止对封闭源代码LLM的支持,可能会对依赖该模型的任何医疗器械产生严重影响。当前市场领先的封闭源代码模型经常更新,其运营商并未提供持久存储的历史模型,以便医疗器械开发者在发现或用户报告安全或性能问题时进行法律要求的根因分析。
开源方法可以通过最大化透明度克服许多这些限制,并为医疗器械开发者提供最大限度的灵活性,以减少此类系统的黑箱属性。他们可以确保其医疗器械仅使用固定且受控的模型,并确保模型在不再使用后存档,以便在收到安全报告时进行调查。此外,这些模型可以在许可的开源许可证下操作,允许进一步开发和调整LLM,以及免费使用软件,包括商业用途。从技术角度来看,整个开放性谱系中的LLM都可以集成到AI系统中。然而,基于其透明度和启用开发者控制的优势,开源模型在医疗领域具有明显优势。
如何区分开源和封闭源代码的LLM?如何系统地分析LLM的开放性,以及开源LLM在性能上如何与封闭源代码的LLM相比?鉴于欧盟AI法案对开源和封闭源代码模型的监管方式不同,这个问题在生成式AI(GenAI)领域变得尤为重要,迫切需要实用的框架来评估LLM的开放性。欧盟AI法案将LLM和GenAI基础模型归类为通用AI(GPAI)模型,并将其分为多个复杂交织的子分类,具体要求取决于每个模型的特性,有时定义较窄,有时较宽。如果GPAI模型在其参数(包括权重、模型架构信息和模型使用信息)公开的情况下,以自由和开源许可证发布,则可以免除某些方面的模型透明度要求。除了适用于所有GPAI模型的众多其他AI法案要求外,还有一些仅适用于未达到系统风险模型门槛的开源模型的例外情况(本文稍后将讨论该定义)。如果读者觉得这像是一个无法穿越的迷宫,那是因为它确实是这样,希望后来的指导和法律修正(在AI法案中承认这是必要的)能提供某种可导航性。
最近有几个小组提出了模型开放性框架,考虑了主要的LLM构建模块。在图1中,我们基于Liesenfeld等人最近提出的框架,提供了三个流行LLM在14个维度上的开放性概述。根据该框架,由原始GPT-3.5或更近期的GPT-4驱动的ChatGPT是一个封闭源代码系统的典型例子。Mistral AI的Mistral 7B Instruct模型更加开放,特别是因为其模型权重是公开的,但它尚未达到完全开源状态,特别是因为其制造商未共享详细的训练数据和系统架构信息。Allen Institute for AI生产的OLMo 7B Instruct目前是最开放的模型之一。对所有模型组件的详细分析表明,LLM不能简单地二元分类为开源或封闭源代码。由于其架构和训练过程的复杂性,LLM应位于一个多维开放性图表上,每个LLM组件分别根据其开放性水平表示(图1)。正确的开放性表示不仅对LLM开发者和AI研究人员至关重要,也有助于公众辩论,使所有感兴趣的各方更好地理解和批判性地评估不同开放程度及其对敏感领域如医学的影响。
图1:三种代表性LLM(ChatGPT [GPT-3.5]、Mistral 7B Instruct和OLMo 7B Instruct)的开放程度。
每个图表测量了14个关键标准,分为三个主要类别:访问、可用性和文档。子类别包括代码库、数据、权重和许可证的开放性。在文档方面,代码和架构必须描述良好,包括预印本、同行评审论文、模型卡和数据表等附加细节。最后,访问通过安装包和API的可用性进行测量。所有这些标准都根据三个级别进行衡量:开放(绿色)、部分开放(黄色)和封闭(红色)。ChatGPT主要显示封闭访问,而OLMo 7B Instruct在大多数标准上表现出开放性。Mistral 7B Instruct平衡了开放和受限功能,模型权重公开,但隐藏了创建过程的细节。框架和数据来自Liesenfeld等人。更多关于框架标准和个别LLM数据的详细信息可在此处找到:
开源模型与专有封闭模型在医学中的性能比较如何?近年来,一个不断演变的通用和医疗领域特定的LLM生态系统已经出现,越来越难以跟踪所有新模型的发布及其性能。封闭源代码的LLM,如GPT-4和Claude 3.5 Sonnet,为公众熟知并在个人和业务环境中广泛使用。相比之下,更开放的模型如OLMo 7B Instruct和BigScience的大型开放科学开放访问多语言语言模型(BLOOM)仅被AI专业人士和LLM爱好者所知。开放权重模型,如Mistral 7B,因其能够在边缘设备(如消费者笔记本电脑和移动电话)上高效运行而最近受到欢迎。今天,即使是参数量在七到八亿之间的小型开源LLM,也能在消费级笔记本电脑上高效运行,其性能已超过由GPT-3.5驱动的原始ChatGPT,后者在2022年被视为重大突破,引发了对新一代生成式AI的巨大兴奋。2024年7月,开放权重模型Llama 3.1 405B在Measuring Massive Multitask Language Understanding(MMLU)基准测试和其他成熟的LLM基准测试中几乎追上了封闭源代码模型GPT-4。
对LLM进行基准测试仍然非常困难,尤其是在医学领域,缺乏有意义的评估方法。自动、无偏见的LLM评估方法高度可取,但所有尝试可靠地自动化这一耗时过程的努力均告失败。由领域专家执行的人工LLM输出评估仍然是黄金标准。展望未来,LLM将越来越多地集成到医疗器械中,因此建议不要专注于LLM的领域特定医学知识,而是关注模型的认知核心能力和其与其他系统组件的交互。尽管目前在有意义地衡量LLM性能方面存在挑战,但现有数据表明,封闭源代码模型在当前的医学基准测试中略优于开源模型。然而,最近几个月,开放权重模型总能在几个月内赶上封闭源代码模型(图2)。因此,似乎封闭源代码模型并没有内在优势,只是领先一步,这为封闭源代码LLM方法在医学领域的长期青睐提供了有限的证据。随着性能差距缩小,医疗社区的参与正成为开源模型的一个重要优势。正如最近所示,研究人员和医疗专家合作微调开源LLM,可以在医疗文本摘要中实现与专有模型相当的性能水平,同时仍提供透明度和定制化的优点。
图2:封闭源代码和开放权重大型语言模型在MMLU(5-shot)基准测试中的性能比较。
这个流行的基准测试显示了开放权重模型如何逐步赶上封闭源代码模型。该评估包括57个不同学术科目(如病毒学、商业伦理、天文学)的15,908个问题。作为比较,MMLU的作者估计人类领域专家的准确率为89.8%。然而,MMLU仅衡量一般知识的表现,不针对逻辑推理、编码、多语言能力和有用性等能力。为了提供更好的总体表现概览,必须结合多种多样且高质量的基准测试。数据基于模型开发者从2022年4月到2024年8月报告的分数。
摘要
强大LLM的系统性滥用危险声称
主张封闭源代码模型的人士主要基于非领域特定的LLM,认为有必要避免伴随这些通用模型滥用而来的系统性风险。核心论点是,封闭源代码模型的威力如此之大,以至于可以用于大规模的虚假信息活动、网络攻击或协助恐怖分子制造生物武器。几家领导开发和部署封闭通用LLM的公司已游说政府当局立即立法并对LLM进行严格监管。相反,另一组大型科技公司和开发更开放模型的开源社区则朝相反方向游说,以确保研究和开发不会因过于严格的立法而受阻。欧盟(EU)于2024年3月13日通过了AI法案,迈出了规范AI的关键一步。欧盟AI法案假定GPAI模型存在系统性风险,并对训练超过10^25次浮点运算(FLOPs)的模型施加各种要求。欧盟委员会将FLOP定义为模型能力的代理指标,具体的FLOP阈值可以由委员会根据客观衡量模型能力的进步和给定性能水平所需的计算能力的发展情况进行上调或下调。欧盟立法方法基于这样一个前提,即超过该阈值的模型能力尚未得到充分理解,可能存在系统性风险,因此合理地对其提供商施加额外义务。尽管训练这些模型需要巨大的计算资源(例如,Llama 3.1 405B需要3.8×10^25次FLOPs),但解除内容限制的过程可以通过微调以及廉价的权重修改技术(如消融)实现,所需成本不到训练预算的0.001%。这些未经审查的模型可以由任何拥有足够GPU访问权限的人操作。换句话说,有证据表明,当前的欧盟法案方法可能仅仅限制了出于负责任目的的大规模LLM运营商,而对半组织化的行为者(他们希望出于不负责任或非法目的操作模型)没有效果。
政策应如何推进?
一方面,封闭的LLM在下游医疗决策支持系统中的法律应用方面提供的东西很少,另一方面,通过其实用性对非常大的模型(及其被标记为具有系统性风险)的影响,欧盟AI法案使得真正开放的大规模LLM难以获得。美国关于安全、可靠和值得信赖的人工智能开发和使用的行政命令(2023年)可能会产生类似的影响,具体取决于公共咨询后的结果和实施情况。在作者看来,至少目前,LLM在推理和规划方面的局限性使得从LLM快速直接演变为不可控的人工通用智能(AGI)的可能性极低。此外,知情社会迅速适应AI生成的文本、图像和视频,减少了通过AI生成内容接受虚假信息的倾向。因此,与其倡导立即严格的监管和禁令,不如紧急需要为医疗工作者和普通公众提供有效的理论教育和实践培训。为此,特定的LLM活实验室可以作为理想的协作环境,患者和技术、医疗、伦理、监管和政策领域的利益相关者共同创造开放的LLM和下游LLM支持工具,协同开发在现有法律框架内(甚至促进这些框架的进一步完善)部署这些开放LLM的可操作指南。
权衡医学中开源和封闭LLM的相对优势,当前封闭系统因缺乏透明度和有效质量和安全控制的排除而不适合医学。这些问题可以在未来的模型中解决,这些模型对公众封闭,但对临床决策支持系统的开发者有限制性的合同条款。然而,如果LLM像一些人声称的那样对医学的提供产生深远影响,那么,就像过去的图书馆及其医学教科书和期刊一样,公众和医疗专业人员应该能够访问指导医学实践的信息(及其基础)。如果信息是封闭的,就不是真正的信息,不应用于任何事情,尤其是医疗保健。一些支持封闭LLM的人士将其标榜为一种可以革新人类社会和工业的通用技术,促进信息的传播和新的启蒙时代,随之而来的是经济增长时期。印刷术的力量在于它是一种开放的基础技术。
(全文结束)

