药物研发可能正处于冷战时代
研究
本文扩展了我一个月前发布的一条推文。
作为科学家(是的,我自己也认同是科学家,尽管我明白这可能会引起争议),我们常常被训练并鼓励去揭示宇宙中神秘现象背后的机制。根据我们所考虑的神秘现象类型,我们被分类到不同的领域;如果你研究的是生物现象,你就是生物学家。如果你研究的是语言,你就是语言学家(语言学家是科学家吗?这是一个好问题,但我将把这个问题留到未来的另一篇文章中讨论)。如果你研究的是问题解决,我认为你会被认为是计算机科学家。
通常,揭示这些神秘现象背后的隐藏机制使我们能够解决看似无法解决的问题。通过理解电磁力,我们生活在这个奇妙的社交媒体世界中,这让每个人都感到压力山大并对自我感到不满。通过理解相对论,我们生活在这个奇妙的世界里,没有人知道如何在没有谷歌地图的情况下从一个地方到达另一个地方。通过理解量子力学,我们的计算机变得越来越快,芯片越来越小,晶体管越来越多。通过理解分子生物学,我们不再需要屠宰牛、马等动物来获取胰岛素。通过理解热力学,我们的街道上充满了响亮而快速的汽车。这些都是了不起的成就。
因此,对于我们科学家来说,很容易认为这是解决挑战性问题的正确且可能是唯一的方式。首先,找出导致这些挑战性问题的现象的精确机制,然后基于揭示的机制,提出这些问题的解决方案。当然,一旦我们知道了问题为何以及由谁引起,我们就能解决问题。
然而,这种诱惑很容易使我们误入歧途。这是因为问题的解决方案几乎从不依赖于导致该问题的现象的完整机制。相反,实际解决方案通常依赖于对潜在机制的一些了解,结合一些近似和模拟。一个典型的例子是飞机。准确地模拟飞机如何起飞、在高空飞行、在空中机动和安全着陆是极其重要和关键的,但由于许多因素(如计算不可行性和未观察到的变量),准确模拟这些方面的任何一个通常是不可能的。相反,飞机制造商依靠对一组简化控制方程的近似解,这些方程包含相当多的自由参数。这些自由参数通常通过大量计算模拟、现有数据点和风力涡轮机实验来估计。尽管有少数灾难性事件,但这种通过部分了解飞行现象并结合模拟、数据和实验找到的解决方案却出奇地有效。如果我们坚持在构建解决方案(即飞机)之前完全了解空气动力学和飞行现象所涉及的所有其他方面,那么我们就不会有如今我们享受(和厌恶)的广泛商业航空网络。
另一个更贴近我心的例子是机器翻译。我们都知道,机器翻译深深植根于世界大战和冷战时期,当时对自动快速将从敌人那里截获的文件翻译成我们自己语言的需求和愿望达到了顶峰。当然,在更现代的背景下,机器翻译是我们降低所谓数字鸿沟和数字障碍的唯一工具之一,这种鸿沟和障碍是由于互联网上不同语言内容的可用性不平衡造成的。
当机器翻译首次被引入并被正式化为一个研究与开发问题时,它被视为一个一旦我们更了解语言如何工作就能解决的问题。也就是说,如果我们知道我们如何理解并生成语言,我们就能构建一个紧密模仿并结合这两个理解与生成过程的机器翻译系统。在理解方面,流程从词语解析/理解开始,将它们在句法上组合成短语和句子,为这些句法组合的单元分配语义,并最终提炼出输入文本的含义(中间语言)。生成过程是理解的逆过程;从中间语言开始,添加语义,映射到句法结构,然后读出词语。当然,直接将一些信息从理解的每个层次传输到生成的相应层次是很重要的,因为在理解阶段随着我们在层次结构中向上移动,我们会逐渐丢失信息。这种过度简化的构建机器翻译系统的范式被称为基于规则的范式或基于规则的机器翻译。
我相当确定这可能是我将韩语文本翻译成英语的一个好图景,但这并不是我理解和书写/说任何语言的完美机制。而且,由于这种不完美(尽管语言学界经过数年、数十年甚至数百年的持续努力),基于规则的机器翻译从未在一系列利基、窄域应用之外得到广泛应用。但是,正如你们中的一些人已经用这篇文章所做的那样,如今机器翻译对许多语言来说都相当有效。这是怎么做到的呢?
机器翻译(以及类似的语音识别)的关键时刻出现在80年代末,当时包括IBM的Brown等人在内的一小群人决定重新审视Shannon和Weaver在40年代和50年代提出的将语言视为信息编码机制的旧想法。在这种观点下,用一种语言写成的文本片段不过是用另一种(原始)语言写成的文本片段的受损版本。那么目标就是通过首先学习噪声的模式,其次学习目标(原始)语言本身来消除给定文本片段的噪声。这种方法可以通过纯粹的统计方法来实现:(1)通过监督学习来学习失真模式,(2)通过无监督学习来学习目标语言的整体分布。我们称之为"噪声通道模型",在这种范式下,我们只需要大量的配对和非配对数据。
这种纯粹的统计范式正是推动现代机器翻译以及大规模语言模型的动力。相对于上述基于规则的机器翻译背后的范式,这种范式几乎没有任何类似于人类语言理解和生成的东西。相反,在这种范式中,机器翻译问题(或更广泛的语言理解-生成问题)是通过从大型语料库中提取所有可能的相关性,并在测试时有选择地使用这些相关性的一个子集来理解和生成文本来解决的。这可能不是我们在大脑中使用语言的方式,但这是我们能够并且应该解决机器翻译问题以及自然语言处理中的所有相邻问题(如问答、闲聊等)的方式。
这种统计范式有其自身的问题,例如容易受到虚假相关性的影响,对基础分布变化的脆弱性,以及对大量数据的渴求。尽管如此,这正是我们在构建高质量和生产级机器翻译系统方面取得一些重大进展的方式。毕竟,我妈妈会用机器翻译来阅读这篇文章,我几乎100%确定她会或多或少完美地理解我的主要信息。
我越来越确信,当涉及到药物研发时,我们可能被困在主要由科学(或更准确地说是好奇心)驱动的第一个范式中,而我们应该转向下一个范式,即药物研发主要由高通量实验、异构数据、高维统计和工程驱动。我们中的许多人都有这种强烈的愿望,想要弄清楚生物学和生理学如何运作,以便以最详细的方式理解症状(毕竟疾病通常只是我们分配给症状群集的名称)是如何产生的,并基于我们对生理学、生物学、化学和物理学的理解,提出一种能够干扰导致这些症状的生物过程的治疗方法。这让我想起了早期的机器翻译尝试;我们弄清楚我们如何理解和生成语言,构建一个紧密模仿这一过程的机器,最终这个机器将开始在两种语言之间极好地翻译文本。这里的谬误在于,弄清楚症状产生的真实机制的细微细节可能满足我们对科学理解的渴望,但可能比提出有效的治疗方法更具挑战性。也就是说,我们可能因为不是在解决药物研发问题,而是试图解决一个更困难(尽管可能更有趣和更具智力刺激性)的问题——即弄清楚生物学——而被困在药物研发中。
这种新的药物研发范式会是什么样子?它将比当前的药物研发实践更加端到端,当前的实践实际上是一个随着决策阶段(由我们对生物学和生理学的知识、基于经验和直觉的直觉以及财务限制驱动)而指数级缩小的漏斗。在我将称之为端到端范式的新范式中,目标是检测和捕获所有感兴趣的症状、所有人群(患者和非患者)的人口统计信息、非药物医学干预(及其描述)、基于药物的医学干预(和药物的化学和生物特性)、所有关于生物学、化学、物理学和医学的知识(来自科学和临床文章以及非学术文章等)之间存在的所有可能的相关性。其中一些相关性可能来自随机干预,例如作为临床试验的一部分,或由于某些自然实验(例如,某些州突然失去对其居民的医疗补助支持,某些药物由于物流问题暂时在世界某些地区不可用等)。这些干预数据将使我们能够使用高级统计技术来识别从某些因果机制产生的相关性子集。一旦捕获了这些相关性(无论是因果的还是虚假的),我们就可以在计算机模拟中实验新的治疗方案对先前未考虑的患者群体的新症状群集的潜在影响。如果已经有大量证据支持这种估计效果,我们可能会直接进行临床试验,甚至跳过临床试验的某些部分(特别是如果估计效果被认为是因果的)。如果没有,我们可能能够设计一组最小的实验(体外、体内和/或临床试验)来填补这一空白。
事实上,这样大规模的相关性收集(包括因果和虚假的)甚至将指导我们确定应该考虑哪些治疗方案(新的和旧的)用于哪些症状集(再次是新的和旧的)以及哪些亚人群,以最大化我们未来为更严重和关键条件提出更好治疗方案的能力。在这种"端到端药物研发"范式中,重点不是提出一种新药,而是最大化信息,以便随着时间的推移,我们能够以非常高的成功率,为无限多样的症状和无限多样化的群体提出无限系列的药物。肿瘤学的一个新数据点将提高我们在所有其他治疗领域(神经退行性疾病、糖尿病、自身免疫等)创造新药物的成功机会。您随便命名。一个亚人群(例如,像我这样的东亚中年男性)的新数据点将帮助我们为所有其他亚人群提出新药物。这不仅会改变药物研发,还会改变整体医疗保健。
这种端到端范式的一个潜在缺点是,与我们坚持旧的(或严格来说是当前的)药物研发范式相比,我们可能不会学到那么多关于生物学和人类生理学的知识。这并不是因为我们不想了解生物学,而是因为药物研发可以在不必等待生物学和医学取得进展的情况下取得进展,就像我们能够在不等待语言学家完美弄清楚我们如何理解和生成语言的情况下构建机器翻译系统,以及随后我们如今都在使用的惊人语言模型一样。
话虽如此,我不想给您留下这样的印象:当前的药物研发范式由于我们渴望科学地理解物理学、化学、生物学和生理学而完全陷入困境。事实上,药物研发的许多阶段都是基于统计和实验反馈的,而不一定知道事情实际上是如何工作的。毕竟,我们仍然不知道泰诺(对乙酰氨基酚)是如何起作用的,但我们完全可以放心地从货架上购买泰诺并在不咨询医生或药剂师的情况下服用(好吧,在服用任何药物之前咨询医疗专业人员总是一个好主意)。然而,我们正在花费大量精力在药物研发的名义下推进我们对生物学和生理学的理解,我想质疑这种做法背后的潜在假设。
在原始推文(显示在本帖顶部)中,我更具体一些:"AI for drug discovery"。为什么我这么具体?因为我觉得我们正在使用这项惊人的新技术来解决和/或加速主要仅在当前范式下存在的个别问题。这感觉很像15年左右前神经网络最初被用来改进基于短语的机器翻译系统的各个子组件;我们用一个微小的序列到序列模型替换了短语表(这是我的第一次涉足机器翻译),我们用一个微小的前馈神经语言模型替换了n-gram语言模型(那是Holger Schwenk很久以前成名的原因)等。但最终(我们从一开始就知道),我们必须从基于短语的翻译(或n-gram翻译)这个旧范式跳出来,跳到神经机器翻译的下一个范式(或者我应该称之为端到端机器翻译)。我强烈怀疑我们已经准备好为AI药物研发做同样的事情。
科学之所以迷人,是因为我们揭开了宇宙中神秘而奇妙现象背后的自然机制。科学有理由帮助我们揭开了其中一些隐藏的机制,并赋予我们惊人的技术进步。然而,这不是前进的唯一途径,有时揭示潜在机制本身可能比解决由这些深藏机制引起的问题更具挑战性。也就是说,如果您会说韩语,这就是"肚脐比肚子大"的情况。机器翻译就是这样一个例子,我很幸运能够亲眼目睹,而药物研发可能正处于机器翻译在某个时期的同一境地(即冷战期间和柏林墙倒塌后几十年)。
为了让药物研发在被称为人工智能(AI)的这项惊人技术的帮助下取得重大飞跃,我们必须开始思考"端到端",并远离对物理学、化学、生物学和生理学每一个细微细节的痴迷。这种痴迷将继续并行进行,以服务于科学的目的,但不应该是药物研发取得进展的先决条件。相反,我们必须着眼于更大的图景,捕捉整体医疗保健中涉及的每个实体之间的所有可能相关性(无论是因果的还是虚假的),并让AI帮助我们提出新的治疗方案并建议一组要进行的实验,以最大化可以在不同症状、不同治疗方式、不同人群组等之间共享的信息增益。也就是说,端到端药物研发必须并且将同时为每个人、每种疾病、每种可能的方法提供解决方案。
无论如何……是王元清博士(Dr. Yuanqing Wang),他既聪明又深思熟虑(并且正在求职!),促使我写了这篇冗长的博客文章(尽管,和我所有的博客文章一样,这是一篇随意、仓促且"天真"的文章),解释了我为什么发布了原始推文"AI for drug discovery looks a lot like machine translation research/development during the cold war." 谢谢,元清!
【全文结束】

