虚拟筛选每天可评估多达十亿个分子,具体取决于计算能力。
虚拟筛选是一套计算方法,用于评估大量分子并识别最可能与生物靶标(通常是蛋白质)相互作用的分子。其概念非常直接:使用靶标蛋白质的三维数字模型测试每个小分子的结合效果。专业软件通过分子对接、评分函数或药效团模型预测这些相互作用,以估算结合强度和互补性。
与实验性高通量筛选(HTS)相比,虚拟筛选的效率显著提升。高通量筛选每天最多处理约一百万个化合物,而虚拟筛选在计算能力支持下每天可评估高达十亿个分子。这使其成本效益大幅提高,并允许在设计、预测和优化之间快速迭代,从而加速早期药物发现。尽管存在依赖靶标模型准确性及潜在假阳性等局限,虚拟筛选仍是识别有前景化学起点的宝贵第一步,在投入合成和实验测试前有效缩小范围。
虚拟筛选有哪些不同类型?
- 基于配体的虚拟筛选
- 基于结构的虚拟筛选
- 混合方法
虚拟筛选如何运作?
- 靶标研究
- 结合位点识别
- 模型构建
- 对接协议验证
- 化合物库准备
- 分子对接
- 药效团映射
- 评分与排序
- 化合物选择与命中优化
虚拟筛选的优势
人工智能加速的虚拟筛选工具
虚拟筛选有哪些不同类型?
虚拟筛选的方法取决于比较是基于已知小分子结合剂(配体)还是靶标蛋白质结构。基于配体的虚拟筛选(LBVS)侧重于将新化合物与已知活性配体进行比较。基于结构的虚拟筛选(SBVS)则关注化合物与靶标蛋白质三维模型的匹配程度。这两种方法常结合使用以提高准确性。
基于配体的虚拟筛选
基于配体的虚拟筛选(LBVS)依靠已知活性化合物识别可能具有相似作用的新分子。当蛋白质靶标的三维结构不可用或不可靠时,该方法特别有效。其基本原理是化学特征相似的分子往往产生类似的生物效应。LBVS方法(如分子相似性搜索、药效团建模或机器学习)将候选分子与已知活性分子比较以识别潜在结合剂。这种方法常用于药物发现早期,以指导命中识别。
基于结构的虚拟筛选
基于结构的虚拟筛选(SBVS)利用靶标蛋白质的三维结构预测潜在配体的结合方式。这通过分子对接实现,即软件将每个配体以多种方向(构象)置入蛋白质结合位点,并估算每种构型的结合强度。SBVS有助于识别新结合剂、优化先导化合物并阐明分子识别机制——即配体通过互补形状、电荷和氢键模式选择性结合蛋白质的过程。
混合方法
混合方法将LBVS和SBVS整合到一个工作流程中。基于配体的步骤可先从海量分子集中筛选出更小、更易管理的子集,再将其对接到蛋白质结构上。有时两种方法会集成到评分过程中。这种组合策略提高了准确性和效率,从而增加识别真正候选药物的可能性。
虚拟筛选如何运作?
虚拟筛选通常涉及多个关键步骤,这些步骤确保其准确性,并将庞大化合物库逐步缩小至最有前景的命中分子(图1)。具体步骤如下。
图1: 典型虚拟筛选流程。药效团筛选可在化合物库准备或评分排序阶段集成。
1. 靶标研究
选择有效的生物靶标是药物发现中最关键的步骤之一。由于大多数疾病涉及复杂通路,靶标验证能提高调控特定蛋白质产生治疗效果的可能性。该过程利用遗传学、生理学、药理学、既往临床研究和结构生物学数据。对于SBVS,拥有高分辨率靶标三维结构尤为重要,因为预测准确性直接取决于模型质量。
2. 结合位点识别
在SBVS中,识别结合位点同样关键。如果已知配体与靶标结合的结构存在,可直接定义结合位点。否则需使用几何口袋检测、能量映射或分子动力学模拟等计算工具定位潜在结合区域。识别后需分析位点的大小、形状、疏水性、电荷分布和柔性,以指导对接设置并提高准确性。
3. 模型构建
虚拟筛选中使用的蛋白质结构通过X射线晶体学、冷冻电子显微镜或核磁共振波谱等实验方法获得。当实验结构不可用时,可基于相似蛋白质(甚至其他物种)的已知结构构建同源模型。尽管精度低于直接实验结构,但能为计算研究提供可行近似。近年来,AlphaFold等人工智能蛋白质结构预测方法已成为宝贵工具,在缺乏实验数据时提供高质量模型。
无论模型如何获取,对接前都必须仔细评估和准备。这包括验证氨基酸残基的准确性、确保结合口袋定义清晰,并执行标准准备步骤,如去除水分子、添加氢原子、分配适当电荷及调整侧链方向。完成这些优化后,蛋白质模型即可用于虚拟筛选。
4. 对接协议验证
筛选前应验证对接设置。一种常见测试是将已知配体重对接,以确认算法能否重现其实验构象。另一种是富集测试,确保已知活性化合物排名高于非活性"诱饵"分子。这些步骤验证虚拟筛选能否区分真实结合剂与非结合剂。
5. 化合物库准备
化合物库是用于筛选的虚拟分子集合,在LBVS中与已知配体比较,或在SBVS中对接到靶标。库的来源多样:现有商业或学术筛选集、围绕特定分子支架构建的专有集合,或通过系统组合化学构件生成的组合库,以探索广阔化学空间。根据应用需求,库的规模从数十万到数百万化合物不等,部分超大虚拟库包含数十亿分子。
筛选前需正确准备配体以确保建模准确。这通常包括几何最小化以缓解结构应变,并添加氢原子和适当电荷。库的整理可能还包括应用类药性过滤器(如Lipinski五规则),以排除不稳定或非类药分子。
6. 分子对接
在SBVS中,对接用于预测小分子如何与靶标蛋白质结合。对接估算每个配体的结合构象、方向和亲和力。该过程通常涉及生成多个配体构象,并系统性地将其置于蛋白质结合位点内,以识别能量最有利的相互作用。
对接可采用不同方法。刚性对接将配体和蛋白质视为固定结构,简化计算但忽略分子自然柔性。柔性对接则允许配体键旋转,有时还包括蛋白质侧链的有限移动,产生更真实的结合预测并提高评分准确性。
多个成熟软件平台常用于对接研究。AutoDock及其优化版本AutoDock Vina是广泛使用的开源工具示例。
7. 药效团映射
当缺乏可靠蛋白质结构时,药效团映射提供替代方案。该方法识别已知活性化合物共享的关键化学特征,并将其表示为简化三维模型。该模型随后用于筛选大型化合物数据库,寻找具有相同空间特征排列的新分子。
该过程涉及构建药效团模型、用非活性化合物验证模型,并利用其识别新命中分子。此方法计算速度比对接更快,常作为初步筛选工具。
8. 评分与排序
对接或药效团筛选后,化合物根据预测结合强度进行评分和排序。分子对接中主要使用四类评分函数。基于力场的评分函数依靠物理原理计算范德华力和静电相互作用等能量。经验评分函数不纯依赖物理原理,而是汇总不同相互作用能量(权重由实验结合数据确定)。基于知识的评分函数通过统计分析已知蛋白质-配体复合物,确定最有利的相互作用类型。最后,基于机器学习的评分函数利用大量实验结果训练预测模型,以更高精度估算结合亲和力。
在药效团建模中,评分衡量化合物特征与模型三维排列的匹配程度。评分最高的化合物被视为实验验证的最佳候选。
9. 化合物选择与命中优化
评分后,需根据化学多样性、结构合理性和类药特性筛选排名靠前的化合物。视觉检查确保结合构象真实且形状互补性良好。后期处理步骤(如计算机ADMET预测——吸收、分布、代谢、排泄和毒性)有助于淘汰不良候选物。剩余具有优良结合能力、稳定性和安全性的化合物将进入重新评分、分子动力学或实验验证等进一步分析。
虚拟筛选的优势
与传统体外高通量筛选(HTS)相比,计算机虚拟筛选具有显著优势(表1)。首要优势是能以更低成本、更高灵活性大幅加速大量化合物的评估,从而减少早期筛选的时间和费用。这种效率实现更快迭代周期,使药物化学家能更迅速地重新设计和测试新思路。此外,虚拟筛选可访问庞大分子库,包括尚未合成的化合物,从而扩大发现新型化学结构(结构独特的分子)的机会,超越实体筛选集合的限制。
善用此能力意味着可在投入合成或生物测定前识别有前景的候选物,节省时间和资金。虚拟筛选还具有高度适应性:即使结构信息有限时也能工作,并可与其他计算方法(如QSAR定量构效关系、分子动力学模拟和机器学习/人工智能)结合,以优化预测并提升准确性。
许多获批药物受益于或源自早期使用虚拟筛选的发现工作。著名例子包括多佐胺、扎那米韦、卡托普利以及HIV药物利托那韦、沙奎那韦和茚地那韦。另一个案例是S-217622,一种源自虚拟筛选的非共价口服SARS-CoV-2蛋白酶抑制剂,后续经过生物筛选和基于结构的药物设计优化,最终在日本获批。
然而,虚拟筛选也存在不足。由于依赖计算模型和假设,可能因库、模型或靶标表示的局限而出现假阳性(预测结合但实际不结合的化合物)或假阴性(真正活性化合物被遗漏)。此外,缺乏物理测试意味着溶解度、代谢、毒性和脱靶效应等下游问题可能在后期才显现。尽管虚拟筛选可提示新支架,但药物成功仍多源于高通量筛选或实验筛选发现的化合物。例如,一项大型综述发现仅约1%的临床候选物源自纯虚拟筛选,而90%以上来自传统方法,表明虚拟筛选目前仍是补充而非替代手段。
表1: 不同筛选方法的优缺点总结。
| 方法 | 优点 | 缺点 |
|---|---|---|
| 物理HTS | 直接测量,模型偏差小 | 成本极高;耗时;仅限现有分子 |
| 虚拟筛选 | 成本低;速度快;库规模大;新型化学结构多 | 依赖模型;假阳性/假阴性风险;ADMET和动态性评估有限 |
人工智能加速的虚拟筛选工具
人工智能/机器学习正迅速成为虚拟筛选的关键工具。传统虚拟筛选常采用刚性规则或基于物理的模型评估大量化合物,但这些方法在规模、复杂性和准确性方面常遇挑战。人工智能在三方面显著提升:首先,它能预筛选超大化合物库,将数百万或数十亿候选物缩小至可管理的高概率命中集;其次,通过从大量已知配体-靶标数据中学习(而非纯依赖教科书物理原理),改进化合物结合能力的评分和排序;第三,支持主动学习循环——系统识别下一步测试的化合物,从结果中学习并用反馈优化预测,从而加速命中发现过程。
在一项研究中,人工智能驱动的基于结构的虚拟筛选平台在一周内评估了数十亿化合物并识别出多个活性命中物。另一项涵盖318个不同靶标的大规模实证研究表明,深度学习结构虚拟筛选平台持续识别出新型生物活性化合物。它在每个靶标仅筛选约85个化合物的情况下实现5-8%的命中率,表明人工智能能大幅改进虚拟筛选,未来或可取代物理高通量筛选。
这些成功证明人工智能已在变革早期药物发现方式。但人工智能模型的质量取决于训练数据——高质量、多样化和代表性数据至关重要。它们也无法消除实验测试需求,仅能更有效地优先排序化合物。此外,模型可解释性、领域迁移(对全新靶标的表现)及与药物发现管线的整合等挑战仍需解决。
计算筛选工具持续改进,将继续助力识别拯救和改善生命的新分子。
【全文结束】

