人工智能(AI)在医疗领域的应用取得了令人兴奋的进展,有望提供更快的诊断、新的治疗方法以及成本节约。然而,在这些头条新闻背后,隐藏着一个科学基础受到威胁的问题:再现性。在医学领域,如同所有严格的科学一样,进步依赖于独立研究人员能够复制和验证结果。当研究无法被再现时,看似突破性的发现可能会变成浪费时间和资金的幻影,甚至可能对患者造成风险。
这种医疗AI的再现性危机很大程度上是由另一个趋势驱动的:企业“黑箱”模型的兴起。在这些模型中,AI系统的内部运作对外界用户来说是一个谜。这些模型是私有的,且不受必要的审查,难以检测其中的偏见、错误或方法上的缺陷。结果是,许多炒作驱动的AI解决方案未经充分检查就被引入临床工作流程中。
与此同时,许多数字健康领域的思想领袖正在汇聚到一个解决方案上:一个开放、民主的AI生态系统。通过坚持共享数据、开源模型、透明的方法论以及强有力的监管监督,我们可以将“信仰驱动”的AI转变为基于证据的AI在医学中的应用。
不可再现的医疗AI
再现性意味着研究人员可以使用已发表研究中的相同数据集和代码,重新运行分析,并得到实质上相同的结果。这是循证医学的基石。我们不允许未经可重复和确认的临床试验的新药上市。然而,许多医疗领域的AI应用未能达到这些标准。
2021年的一项分析发现,在511篇健康领域的机器学习论文中,AI领域的数据集和代码共享水平较低,这使得复制变得复杂。另一项研究指出,机器学习出版物的激增“缺乏方法学严谨性”,导致了令人担忧的不可再现性。像数据泄漏这样的细微缺陷,即算法在训练过程中无意间看到了在实际医疗实践中不会有的信息,可能会使结果无效,而如果代码和数据保持保密,则这些缺陷可能未被发现。
在实际操作中,这种再现性差距构成了严重的风险。一种声称比任何专家都能更早检测出疾病的AI听起来很有吸引力。但如果该声明无法由独立团队复制,那么最初的研究所做的不过是一份披着科学外衣的新闻稿。后果并非假设。像IBM Watson for Oncology这样的高调工具在早期引起了热情,但在外部评估揭示该系统经常无法在现实环境中提供适当的临床建议后,受到了批评。尽管一些医院继续使用某些Watson工具,但IBM最终缩减了其Watson Health部门,并出售了部分业务。
这些挑战说明了未经严格验证的AI模型如何在外部数据集上表现不佳,并且无法推广到它们最初训练的数据之外。在其他情况下,模型被发现生成缺乏临床依据的建议,提醒人们不透明系统在部署前无法独立评估所带来的风险。
私有黑箱和公共后果
不可再现性的一个核心驱动因素是AI模型的商业化日益增加。许多部署在医院中的算法来自私人供应商,他们将其架构、训练方法甚至有时是训练数据视为专有。从商业角度来看,这可能是可以理解的,因为开发大型AI模型既耗时又昂贵,公司希望获得回报。但这种逻辑与医学对安全和透明度的要求相冲突。
我们已经看到临床医生被迫依赖他们无法质疑的工具。想象一下,一位医生被告知软件显示患者处于高风险状态。是什么特征触发了这一警报?模型是否受到某些人口统计数据的偏见影响?在专有系统中,临床医生可能会收到风险预测或治疗建议,但没有对底层推理的了解,这引发了关于透明度、可解释性和问责制的关键问题,这些问题在模型设计未公开的情况下往往得不到回答。
从科学的角度来看,封闭模型几乎不可能实现再现性。如果没有知道架构、超参数或训练程序,外部研究人员就无法在新数据上复制结果。即使他们怀疑存在偏见或错误,也无法进行验证。后果从危及生命的错误到公众对医疗AI失去信心不等。
为什么开放是解药
开放式科学应运而生。人类基因组计划表明,开放数据可以加速突破。类似的方法对于AI也可以推动更安全、更公平的医疗创新。确保再现性的最简单方法是使AI模型及其底层代码和训练数据(在隐私允许的情况下)公开可用。这并不意味着每个用户都可以编辑模型,但它允许合格并注册的研究人员评估其训练方式,测试偏见,并尝试复制结果。
开源代码和公共数据集不仅是理想,还是质量控制的工具。每一次成功的复制都会增强信心。如果出现差异,社区可以在临床部署之前标记它们。开放性还揭示了影响弱势群体的隐性偏见。专有系统可能在造成伤害之前无法检测到这些缺陷。
开放的AI还支持全球合作。巴西的一个团队可能会发现,波士顿训练的模型忽略了南美洲常见的疾病变种。如果代码和数据是公开的,他们可以调整模型并分享改进。这种迭代方法可以帮助缩小地区和人群之间的性能差距。
期刊、监管机构和去中心化AI未来的作用
如果开放式科学是明确的解决方案,为什么它还不是医疗AI的标准?其中一个原因是期刊、资助者和监管机构缺乏一致的要求。虽然药物试验经过严格的透明过程,但许多AI工具通过分散的渠道进入临床环境。
这种情况正在发生变化。一些期刊现在要求AI手稿提供代码和数据可用性。领先的研究人员呼吁在高风险领域使用可解释的AI。即使是关于商业秘密的担忧也有潜在的解决办法,例如由监管机构进行私人审查以评估安全性而不公开发布。
在政策层面,欧盟提议的《AI法案》将某些医疗算法分类为“高风险”,要求更强的透明度、安全测试和问责制。国际努力如AI治理联盟也在推进共享指南,以保护创新和患者安全。
开放式科学不仅提高了再现性,还使去中心化的AI生态系统成为可能,公共机构、小型实验室和低收入和中等收入国家的研究人员可以参与其中。通过访问模型和方法,他们可以适应当地需求,保护隐私,并解决商业供应商忽视的差距。
当更多团体能够在不同背景下评估模型时,再现性也会提高。分布式研究社区的集体智慧远比任何单一公司强大。文化变革也很重要。开发者必须将长期的安全性和公平性作为构建平台的关键组成部分。反过来,临床医生必须在将AI整合到护理路径和治疗范式之前,要求证据而非炒作。
(全文结束)