现代药物研发最重要的经验观察之一是"反摩尔定律"(Eroom's Law):杰克·斯卡内尔(Jack Scannell)首次提出的这一发现表明,每十亿美元研发投入所获得的新药批准数量大约每九年减半。换句话说,尽管生物医学科学取得了巨大进步,但药物研发的效率却呈指数级下降。测序变得更便宜,计算能力更强大,高通量筛选更快,生物知识量也呈爆炸式增长。然而,与20世纪中叶相比,我们单位投入所产生的变革性药物却更少了。
最新一波AI热潮将自己定位为解决这一悖论的方案。我通常对AI改善药物研发的潜力持乐观态度。但如果它鼓励两种自我欺骗,那么它同样可能产生净负面影响。
首先,我们可能过于迷恋AI能够生成的新假设数量,而忘记了限制因素不是假设数量,而是假设质量,或者用杰克·斯卡内尔的话说,是提高我们模型的"预测效度"。生成更多相当于中等博士水平的见解——生物医学领域的"低质量内容"——并不是进步。如果导致我们"堵塞"临床开发管道,它可能实际上是有害的。
其次,AI的进步可能会诱使我们忽视直接来自人体的数据的不可替代性,导致我们在与人体生理学不匹配的模型系统上投入更多。我们会沾沾自喜,因为我们训练了一个"更大的模型",却忘记了这最初应该实现的目标。这种情况以前就发生过,当时由于更严格的监管,我们从60年代盛行的快速人体实验,转向了目前主导药物发现的所谓"理性设计"范式。正如《现代医学的兴衰》一书详细解释的那样,更复杂的机制洞察、更快和更高维度的科学与制药研发企业整体效率的下降同时出现。
被我们最新的模型所吸引可能会使我们忽视一个关键瓶颈:如果没有能够更容易获取人体数据(最好是干预性数据)的监管改革,真正推进该领域所需的证据仍将有限。我可能听起来像在重复陈词滥调,但临床试验丰度项目(Clinical Trial Abundance project)的核心目标——加速并降低获取人体证据的成本——可能比任何单项技术突破更具催化作用。
我们不需要更多假设,我们需要更好的假设
现代药物研发最重要的经验观察之一是"反摩尔定律"(Eroom's Law):杰克·斯卡内尔(Jack Scannell)首次提出的这一发现表明,每十亿美元研发投入所获得的新药批准数量大约每九年减半。换句话说,尽管生物医学科学取得了巨大进步,但药物研发的效率却呈指数级下降。测序变得更便宜,计算能力更强大,高通量筛选更快,生物知识量也呈爆炸式增长。然而,与20世纪中叶相比,我们单位投入所产生的变革性药物却更少了。
将未来生物医学进步的希望寄托在模糊的期望上,即"AI会救我们",而不首先重新思考我们生成的数据类型及其对预测效度的影响,这并不比假设仅仅培训更多博士生会提高制药生产力更理性。我们已经进行了培训更多科学家的实验,结果并不十分成功!
当前"AI制药"热潮中一个常见且隐含的假设似乎是,药物发现的核心瓶颈是找到新候选药物的能力。人们相信,如果AI能够提出更多分子结构、更快地探索化学空间或更有效地挖掘文献,它将释放巨大的治疗价值。然而,这一叙述基于一个误解。
制药行业实际上并不缺乏假设或潜在药物候选者:它们已经拥有庞大的化合物库、数千个未推进的目标,以及数十年分子生物学研究得出的机制假设积压。仍然制约因素的是在人体中测试它们的能力。鉴于临床开发项目的高成本(平均超过10亿美元),制药公司必须谨慎选择他们的项目。
目前,我们非常不善于预测哪些治疗假设会在人体中成功。只有约10%的药物项目最终成功,这意味着我们浪费了数十亿美元追求无法转化的方法。核心需求是提高我们识别真正可能产生临床效益的假设的能力——也就是说,提高我们临床前模型的预测效度。
然而,现有AI系统的局限性在于,它们并未在需要替代或近似人体测试的因果、动态、多尺度生物数据上进行训练。它们利用的数据与我们数十年来用于指导我们显然不太成功的策略以违背反摩尔定律的数据相同。
AI在生物学中取得最强成果的领域是输入和输出关系定义明确且被大量采样的领域,例如蛋白质结构预测或从头抗体设计。这些领域受益于大型高质量数据集和明确的优化目标,使模型能够高效学习。但这些数据集的可用性并非偶然:我们有良好的数据,因为这些问题我们已经知道如何研究和测量得很好。因此,AI在这些领域的应用,虽然确实有用,但大多加速了原本在技术上可行的工作流程。换句话说,当前许多AI生物学的成功是增量式的,而非变革性的。AlphaFold是一项令人印象深刻的成就,但它并未彻底改变药物发现,正是因为对于大多数蛋白质类别,我们在实验上推导结构已经相当熟练。
这通过一个思想实验得到了很好的说明:如果吉姆·艾利森(Jim Allison)(因发现免疫疗法而获得诺贝尔奖)在1980年代获得了现代基于AI的生成抗体工具,会发生什么。很可能,这不会将免疫检查点阻断的开发速度提高超过一年左右。关键原因是,长时间的延迟并非由于设计结合剂:CTLA4迅速获得许可,抗体在几个月内获得专利。缓慢的部分是弄清楚哪些免疫途径可以在人体中安全有效地干扰,这需要多年的生物学洞察、动物模型、免疫学和临床实验。目前AI无法缩短这一过程。
然而,也有AI应用于蛋白质结构预测和从头设计直接解决真正瓶颈的案例——尽管目前这类用途是例外而非规则。NablaBio是我最喜欢的例子之一。GPCR是临床上最重要的靶标类别之一,但由于它们嵌入膜中、结构动态且采用多种信号状态,历史上极难调控——尤其是使用生物制剂。NablaBio的平台生成关于GPCR信号构象的大规模功能数据,并使用深度生成模型设计选择性结合并稳定特定受体状态的配体。这使得能够特异性调控GPCR状态,这是传统实验方法无法可靠实现的。
尽管如此,即使在NablaBio的情况下,它解决的核心挑战从根本上说是结构性的:识别和稳定特定蛋白质构象。这是一种精细的干预:高度精确,但仍处于单个分子相互作用的层面。它不做的是解决更广泛的生物和临床背景。最终的治疗结果仍然取决于这些分子扰动如何通过复杂的细胞网络、组织以及人类免疫和生理环境的动态传播。没有临床实验,我们无法完全预测这些涌现效应。对于AI在药物开发中的真正"圣杯"将是能够高保真度地预测此类系统级响应。
不幸的是,这正是AI目前最不适合发挥作用的领域。
我们已经有警示故事,说明"更多科学"并未在医学上带来更好的实际结果。1940年代中期至1970年代,所谓的药物发现"黄金时代",其特点是合成化学与直接人体实验的紧密结合。从抗生素到抗高血压药,全新的分子类别迅速在患者身上进行试验。这些进展通常并非来自详细的机制洞察,而是来自迭代的实证测试。实际上,诊所本身充当了发现的主要引擎。
一旦明显的化学支架被耗尽,监管要求增加,使临床迭代变得更加困难,该领域就转向了由分子生物学、基因组学和高通量筛选驱动的"理性设计"。这种方法承诺更高的精确度和效率。然而,尽管有这些科学进步,我们转向理性设计 coincided 与制药生产力的下降。新模型常常提供了进步的假象:它们的概念优雅超过了它们的预测能力,将研究人员引向不能可靠转化为临床成功的理论框架。
为什么?根本问题是还原论模型的主导地位。药物开发中的核心挑战——将孤立系统中的洞察转化为有机体层面的治疗结果——仍然存在问题。在大多数疾病领域,可用数据稀疏、异质且主要是观察性的。即使是信息最丰富的资源,如结合基因组、转录组、蛋白质组、代谢组和表观基因组层的大规模多组学数据集,也只提供静态快照。它们仍然缺少定义生命系统并最终决定治疗反应的动态反馈循环、非线性行为和随机过程。这不是说这种数据无用,或者我们不能从将AI应用于它来获取洞察。只是我们必须小心如何最终使用它来提高预测效度。
如果我们不小心,AI可能会放大在转向"理性设计"过程中所犯的错误类型。从我们相对预测能力较差的数据中产生无尽的假设,并以进步的印象欺骗自己是很简单的。
预测效度方面的一个积极进展例子来自人类遗传学。机制得到遗传变异支持的药物的临床成功概率大约高出2-3倍。这是因为扰动基因的"实验"已经在人类中以生理规模进行了数千年。遗传学是我们拥有的最好的例子,科学提供了因果性的人体扰动数据,而无需实际进行临床试验。
如果AI要帮助扭转反摩尔定律,它还必须与转向构建和访问真正重要的数据类型相结合:直接人体数据、机制信息丰富并与真实临床结果相关联。这正是我如此热衷于使临床试验更快、更高效的原因。AI甚至可以帮助实现这一点!
使试验更便宜、更快不应被视为AI的替代品,而是其急需的补充。虽然我希望我们在技术上取得催化性改进,但尚不清楚AI何时或是否会取代人体测试。另一方面,更快、更便宜的试验带来的好处是切实的、明确的,并将作为更好AI模型的赋能补充。更积极地追求这一点没有什么可失去的!
AI不会让我们免于监管改革的需要
当前辩论中的一个常见误解是,由于AI将加速药物发现,监管改革变得不那么重要了。这种论点的逻辑大致如下:我们设计的药物只有10%在试验中成功。显然,问题在于我们设计药物的能力不够好。放宽批准只会让无效药物进入市场。
这种观点隐含地假设监管主要影响最终批准阶段。实际上,真正的瓶颈更早:临床试验管道,我们在其中对人体进行假设测试。这些试验耗时数年,成本从数亿到超过十亿美元,并且在每个阶段都受到严格监管。由于此过程在公司内部进行且不在公众视野中,它吸引的注意力远少于批准终点。但当杰克·斯卡内尔等批评家呼吁取消管制时,他们主要指的是这些阶段。这也是中国减少障碍的地方,是其生物技术部门加速的主要驱动因素。而且正是因为每个单独尝试的成功率低,我们才希望更早测试更多想法!
AI可以生成大量候选机制、靶标和分子,但如果没有在真实患者中验证它们的有效、经济和可扩展方法,我们就有产生大量低质量或无根据想法的风险。这就是"低质量陷阱":更多预测,但没有有意义的反馈循环。如果我们希望AI真正改善生物医学进步,我们需要减少进行早期和探索性人体研究的摩擦。使更快测试更多想法变得更容易将使我们能够识别实际有效的方法,丢弃无效的方法,并使用这些实证数据来迭代改进AI模型。
【全文结束】

