科学家正在利用人工智能发现和生成新型抗生素。
在费城的一个实验室里,一台微波炉大小的机器人正点击着微型小瓶,构建一周前还只是代码形式的分子。这些分子中有些源自猛犸象和尼安德特人的生物蓝图(如基因组和蛋白质组),另一些则由算法从零生成。它们都在接受测试,以对抗日益耐药的细菌。
抗菌素耐药性(AMR)每年已导致全球大量死亡,未来几十年威胁将持续加剧。然而全球已有数十年未发现新抗生素类别,候选药物的研发管线依然匮乏。这正是越来越多科学家转向人工智能(AI)的原因——将漫长而充满失败的传统抗生素搜寻过程压缩为更快、更便宜、更广泛的新模式,通过数字工具发现或设计新型候选药物。
"几年前,我们产生了一个革命性想法:将生物学视为信息源,视为一堆代码,"宾夕法尼亚大学总统副教授César de la Fuente博士表示,"如果这样思考,我们就能设计算法来筛选这些代码,识别可能具有抗生素特性的物质。"
尽管AI可能成为抗生素发现的转折点,但游戏规则并非完全改写。将候选抗生素转化为可行的治疗手段,不仅需要计算机技术,还需要调动资源将药物竞争者转化为临床工具。
发现新型抗生素的困境
在过去40年中,新型抗生素类别的发现停滞不前。这令人担忧,因为AMR预计未来25年将导致3900万人死亡(目前每20秒就有一人死于此)。尽管存在处于临床前和临床阶段的抗生素,但根据世界卫生组织(WHO)数据,当前研发管线中缺乏足够创新化合物来应对日益加剧的AMR威胁。
土壤微生物的微生物提取物传统上是抗生素的主要来源。"这是一个非常物理的过程,科学家实际上要到处采集自然界的泥土和水样,尝试从复杂的有机物质中分离活性化合物,"de la Fuente解释道,"但正如你想象的那样,这个过程既费时又不可预测。"
情况更为复杂的是,抗生素不仅要消灭细菌,还要考虑宿主因素。麦克马斯特大学生物化学与生物医学科学助理教授Jonathan Stokes指出:"有效的抗生素必须可溶,能在正确的时间以正确的浓度到达目标解剖部位,且在此过程中不杀死宿主。考虑到任何治疗用途的药物发现都是多属性优化问题,这要求我们必须研究大量分子。"
高通量筛选技术通过实验测试数十万种化合物对抗细菌/纯化微生物靶点的效果,帮助优化药物发现。但该方法同样成本高昂、耗时且偏向于无法穿透革兰氏阴性菌外膜的化合物(这是最难对抗的AMR生物体之一)。
面对这些障碍,研究人员越来越多地转向某种发展速度远超现有抗生素库的技术:AI。
AI加速抗生素发现
当我们谈论AI时,通常指的是机器学习(ML)——AI的一个子集,算法通过训练数据学习以预测新数据的趋势。输入的优质数据越多,输出的预测越准确。ML模型能快速识别模式,将无数可能性浓缩为更小的决策集合,这项技术已大幅加速新型抗生素候选者的发现。
例如,科学家可以将数千种化合物的化学结构(这些化合物已被实验验证对目标细菌有效或无效)输入ML模型。当呈现数十亿种新化学结构时,模型会根据学习到的有效/无效区分标准筛选潜在"命中"化合物。"ML模型本质上是建议生成器,"Stokes表示,"作为科学家,我可以采纳这些方案,选择最佳选项,然后进入实验室进行真实实验。"
这些建议所依赖的数据量庞大、多样且基本未被开发。ML的效率和速度使科学家能在过去从未涉足的领域寻找新抗生素——包括遥远的过去。
挖掘(古代)生物学中的新抗生素
生物学一直是新抗生素的主要来源(如土壤微生物)。但在当前的计算能力时代,寻找药物候选者不再着重挖掘泥土,而是更专注于挖掘数据。de la Fuente实验室作为AI优先抗生素发现领域的前沿机构,开创了使用ML梳理整个生命树基因组和蛋白质组测序数据的方法,筛选具有抗菌潜力的片段。该实验室主要致力于识别抗菌肽——具有广泛多样性和理想抗生素特性的短氨基酸序列,研究对象既包括现存生物(如人类),也包括已灭绝物种。
典型案例:他的团队构建的模型在解析尼安德特人和丹尼索瓦人(人类最近的灭绝近亲)蛋白质组时,发现了具有预测抗菌活性的肽段。在实验室合成后,这些肽段在体外和体内实验中有效杀灭了鲍氏不动杆菌(Acinetobacter baumannii)病原体。
在另一个模型中,他们挖掘了猛犸象、直齿象、树懒、古代海牛等古代动物的蛋白质组。几种肽段在小鼠皮肤脓肿或大腿感染模型中展现出抗感染活性。值得注意的是,这些被称为mammothisin-1和elephasin-2的肽段普遍与粘菌素B(现有肽类抗生素)同样有效,通过去极化细胞质膜杀灭细菌。
de la Fuente指出,这种所谓的分子复活过程为生物学和进化提供了重要见解(即序列变化如何随时间影响分子功能)。同时,它解锁了可能曾有益于已灭绝生物的分子,或许能帮助我们解决当今包括AMR在内的问题。"进化编码着巨大的生物智能,"他说,"我们视分子为这段历史的文档——分子化石,我们可以解读它们以提取有用的见解,以及可能帮助人类的分子。"
生成式AI设计新型抗生素
但如果最有希望的抗生素是完全不存在的分子呢?理论上可能存在的化合物数量大约是地球所有沙粒数量的100倍。"这个数字大到难以理解,"Stokes说。一些化合物可能隐藏在生物代码中;另一些则存在于包含数百万种化学结构的在线数据库中,这些都可通过ML筛选。但考虑到化合物的无限可能性,这些数据库显然有限。
解决方案:从零设计新化合物。使用称为生成建模的技术,科学家用已知有效或无效的抗生素分子训练ML模型。"但这次不是展示网络上的新分子图片,而是让模型绘制出它认为有效的全新分子,"Stokes解释道,这极大地扩展了新型化学物质的探索空间。
生成模型还能整合生物学和化学。de la Fuente团队最近开发了一种系统,输入病原体基因组序列或简短的表型描述,就能建议"自然界不存在"的中和分子,这种策略可用于应对新兴威胁。该团队还构建了生成式AI工具,系统地调整和增强候选化合物的抗菌效力。
生成式AI的难点在于其设计的化合物在数字世界看似完美,但在现实世界几乎无法合成。Stokes及其团队通过构建基于多原子分子"积木库"的生成模型解决了这个问题。由于每个积木与其他片段的反应特性已知,可通过标准化学反应快速廉价地合成,模型输出的分子不仅具有理论前景,且可实际合成。这些化合物在实验室中对鲍氏不动杆菌和其他病原体展现了抗菌活性。
"现在我们不再让模型随意发挥,因为它会生成疯狂的分子,"Stokes解释道,"我们将合成空间限制在可行范围内。"虽然模型当前形式仍生成460亿种新化学物质,但确保了它们的实际可合成性及治疗可能性。
抗生素研发需超越AI的多方协作
凭借AI在数据挖掘和分子设计上的高效,我们很快就能在市场上看到新型抗生素吗?答案并不简单。发现先导化合物只是漫长药物研发过程的初期环节。发现阶段后仍存在众多障碍:候选药物可能因毒性等问题在临床试验中失败,或缺乏资金支持。开发抗生素需要巨额投入,但商业化后价格低廉且使用周期短,制药公司难以获利。正因如此,Stokes和de la Fuente都强调,新型抗生素(无论是否涉及AI)的成功研发,都依赖政府和慈善机构作为公共卫生服务提供资金支持。
AI辅助抗生素发现的未来取决于数据、数据和更多数据。ML模型的预测准确性取决于训练数据质量,因此建立标准化、生物学相关的训练数据集至关重要。de la Fuente实验室为此花费数年时间汇编严格整理的训练数据,测量了数千种分子对多种细菌菌株的最低抑菌浓度(MIC),并在恒定温度、pH值、培养基等变量下确保结果可比性。这些标准化工作将使智能代码转化为真正有用的模型。Stokes认为,这些模型最终不仅能发现或生成抗生素结构,还应整合到整个抗生素开发流程中,从临床前研究到临床试验。例如,模型可帮助预测药物在临床试验中成功(或失败)的可能性及原因。
尽管潜力巨大,算法无法单独战胜AMR。"AI只是一支移液枪,"Stokes说,"它只是我们工具箱中另一个加速解决问题的工具,仅此而已。"
AI能帮助产生具有成功潜力的新抗生素。但最终,将抗生素从实验室推出,通过研发管线并最终提供给需要的人们,仍然是人类的事业。
除了抗生素发现,AI还被用于检测细菌对抗生素的耐药性。了解科学家如何利用AI开发出简便、准确且快速的检测方法。
【全文结束】