目前市场上90%的药物是小分子药物,它们在保障我们的健康方面发挥着重要作用。然而,化学药物发现领域正面临着前所未有的挑战:需要探索一个极其庞大的分子空间。据估计,迄今为止,所有可能存在的小分子中,只有不到0.1%被合成或考虑用于潜在药物。这意味着有许多新的药物等待被发现,这些药物可以治疗大量的疾病和状况,极大地改善我们的健康。
这种情况既反映了当前药物发现的局限性,也揭示了尚未开发的巨大潜力。这表明我们需要一种创新性的飞跃,超越现有的渐进式方法。
利用GPT进行科学和药物发现
解决这一挑战的一种方法是利用近年来彻底改变我们生活的技术:GPT。GPT(生成预训练变换器架构)是一种基于语言训练的人工智能机器学习模型,当被提示时,它可以实时生成词句组合,而不仅仅是重复训练的内容;类似于人类说话的方式。OpenAI的ChatGPT和谷歌的Gemini就是其中的著名例子,它们能够生成从问题答案到食谱再到大学论文等各种内容。
GPT技术也可以应用于科学和药物发现。事实上,在过去几年中,GPT已经在这一领域得到应用。经过化学数据训练的GPT模型(将化学数据转换为基于字母的语言)可以被提示生成符合特定特征的新分子。例如,科学家可以请求一个水溶性、安全可摄入且能与某些酶相互作用的新分子。然后,可以通过要求更多特性来调整结果。传统的做法需要繁琐的手动过程,并在每一步都进行测试。每次更改通常会将研究人员带回起点,因为调整一个参数往往会“破坏”另一个参数,就像解魔方一样,修正一侧的颜色会在其他地方引入错误。
使用GPT而不是这些手动方法,可以显著提高找到有用药物分子的成功概率,为更快、更低成本地解决未满足的医疗需求奠定基础。然而,GPT并未证明是一个一夜之间的神奇解决方案。即使GPT技术已经集成到药物发现过程中,但由于训练集通常只包含几百万个分子,仍然无法生成真正独特的具有所需特性的分子。相比之下,分子空间包含10^60到10^100个潜在的小分子,远超可观测宇宙中的原子总数。
革命性地改变结构生物学
最近的发展将GPT的核心创新提升到了新的水平,通过采用基础模型,这些模型是在更大的数据集上训练的,这得益于计算能力的不断扩展。借助基础模型,AI技术在分子发现和制药创新方面有更大的潜力。
一个突出的例子是DeepMind的AlphaFold,它通过准确预测蛋白质结构,彻底改变了结构生物学。这一能力是通过处理数百万个参数实现的,远远超过了以前为此目的设计的AI模型的规模和准确性。AlphaFold的影响深远,已经确定了许多潜在的药物靶点,包括抗精神病药物、肝癌治疗和罕见寄生虫感染疗法。它在癌症研究和其他领域的广泛应用突显了其变革潜力。由于这项开创性工作,Google DeepMind的Demis Hassabis和John Jumper以及华盛顿大学的David Baker共同获得了2024年诺贝尔化学奖,以表彰他们在计算蛋白质设计方面的贡献。这一重要奖项强调了AI在蛋白质研究中的重大进展。行业领袖预计AlphaFold的应用将继续扩大,进一步加速生物和医学研究。
在药物发现方面,基础模型也是一个潜在的游戏规则改变者,因为它们可以在数十亿个分子及其参数上进行训练,而不仅仅是几百万个。这种庞大的训练数据允许真正新颖的创造,因为模型的范围包括了更多的潜在分子世界。首先,对于患者和医疗保健提供者来说,基础模型的意义在于它们可能会带来更好的治疗方法。
受益于这项技术的一个模式是基于化学实体的小分子药物,这些药物占据了市场上的绝大多数。由于其低分子量,这些药物可以轻松进入细胞并与其它分子(包括蛋白质)相互作用,针对广泛的疾病和医疗状况。基础模型在寻找设计新小分子药物的配方方面特别有前景,这些药物可以进入所需的细胞,达到正确的靶点,并可能提供治愈和治疗方法,同时也有助于发现针对罕见或难治性疾病的新药。对于那些已有许多治疗方法但这些治疗方法昂贵、不舒服、容易失败或仅带来微小改进的广泛疾病(如癌症和糖尿病),找到新的小分子解决方案对于未来的医疗保健同样至关重要。
对于制药公司而言,这些模型提供了一种真正推进科学和健康的方法,同时高效有效地开发独特的新分子,从而可以提交为新的物质专利,为行业注入新的动力。即使有了AI技术的进步,制药公司仍在努力应对“跟随者”药物的问题,即许多药物开发商倾向于寻求已知有效的目标和候选药物,作为一种经济和实用的方式来增加治疗的价值或为已定义的市场开发类似的竞争治疗。基础模型提供了一个更有希望的工具来减少这些趋势,并开发出比现有药物更具突破性的治疗方法。这主要是因为基础模型包含了更多的数据,提供了更高效且风险更低的方式来寻找新的靶点和候选药物。至关重要的是,由于其规模,基础模型减少了已知的AI使用风险,产生更可靠的结果和新分子的想法。
除了分子发现阶段,基础模型也开始在药物设计和医疗保健的其他领域取得突破性进展。例如,研究人员已经开始使用它们来更好地分析复杂的生物医学数据,预测药物的有效性和安全性,基因组测序,显微镜检查,以及更好地理解特定靶点与疾病之间的联系。基于语言的基础模型在小分子研究中的应用可能会打开制药行业的大门,为制药公司提供大量关于目前服务不足或完全没有治疗方法的许多疾病和状况的数据。
药物发现和科学领域都是建立在数据之上的。基础模型通过整合通过GPT或其他架构获得的大量数据,带来了新的能力,使人们能够获得人类无法想象的见解,并为医学突破铺平道路,这些突破将真正改变生活和人类的未来。
(全文结束)

