数字工具与人工智能如何加速药物研发 - 创新药物

在传统药物研发中，一款成功药物的典型研发周期长达10至14年，有时甚至更久才能从发现阶段推进到获批上市。此外，将药物推向市场的成本可达数亿至数十亿美元。事实上，经通胀调整后的药物研发成本大约每九年翻一番。

根据行业数据，每款获批药物的研发成本估算因方法论和包含范围（如失败项目、资本成本及上市后工作）而存在显著差异。例如，一项基于企业保密数据的权威分析显示，单款药物的现金支出成本约为14亿美元（2013年美元价值），资本化成本达26亿美元；而基于美国食品药品监督管理局（FDA）公开数据的分析则表明，新药上市的中位资本化研发投资为9.853亿美元，平均投资为13.359亿美元。

仅有极小部分进入临床前测试的化合物能推进至首次人体试验阶段。此外，约12%进入临床试验的药物最终能获得FDA批准。晚期试验失败带来的经济损失（包括沉没研发成本）可能高达8亿至14亿美元。

临床研发成功率因疾病类型和数据集而异。2011-2020年的大规模项目基准分析显示，从I期到最终获批的整体成功率约为7.9%，其中肿瘤学领域更低（约5.3%）。其他行业常用综述则将整体成功率定在14%以下。

药物研发的漫长周期与高昂成本导致罕见病患者的医疗需求出现巨大缺口。尽管全球3.5%至5.9%的人口（约2.63亿至4.46亿人）患有罕见病，但其中95%的患者在美国尚无FDA批准的治疗方案。由于高失败率导致资金和时间浪费，多数试验聚焦于市场回报更高的常见疾病。

这种经济结构形成恶性循环：失败高成本促使投资集中于重磅药物适应症，使罕见病和复杂疾病患者缺乏治疗选择。从AI驱动的靶点识别到生成式分子设计，数字药物设计工具正通过压缩时间线、降低成本并拓展可探索的疾病范围来打破这一循环。

数字药物设计简史

理解数字药物设计的发展方向需追溯其加速历程。1970年代前，药物发现主要依赖偶然观察和试错筛选，常耗时数十年且无明确结果，科学家对分子机制认知有限，仅能依靠表型筛选和经验测试。

1970年代起，计算机辅助药物设计（CADD）技术开始兴起。CADD利用分子建模技术分析分子与药物靶点的结构及相互作用，评估候选药物的活性、毒性和生物利用度。1980年代，基于结构的药物设计和基于配体的药物设计逐步发展。2000年代，结构生物学、基因组学和生物信息学推动CADD进步，蛋白质数据库等化学库指数级扩张，虚拟筛选成为标准实践。

2020年代，人工智能（AI）与机器学习（ML）深度整合至CADD。深度学习模型实现前所未有的预测精度，AlphaFold等生成式AI工具彻底变革了结构预测和分子设计。据预测，AI药物发现市场将从2025年的46亿美元以30%的复合年增长率增至2034年的495亿美元。

当前发展现状

如今，“数字药物设计”涵盖日益广泛的工具集：模拟化合物与生物靶点相互作用的分子模拟技术、基于海量化学库预测候选药物的机器学习模型、提出全新分子结构的生成式AI，以及将计算预测与物理实验连接的实验室自动化平台。

近年来应用加速显著。首款AI设计的药物正进入临床试验阶段。英矽智能（Insilico Medicine）、递归医药（Recursion Pharmaceuticals）和阿布斯公司（Absci）等企业已展示端到端AI管道。不断攀升的研发成本迫使行业提升效率，而GLP-1类药物等成功案例则验证了数字工具的投资回报潜力。整合多工具的平台持续涌现，如Sapio公司的ELaiN平台正从记录工具升级为协作引擎。

分子动力学模拟

模拟技术已超越静态结构和单构象阶段。深度学习（DL）模型能基于分子结构预测化合物特性与活性。卷积神经网络（CNN）可有效处理分子结构图的图像数据以预测特性；循环神经网络（RNN）利用序列数据捕捉分子序列中的长期依赖关系；图神经网络（GNN）通过处理分子图建模原子间关系并预测特性。

简化分子线性输入系统（SMILES）广泛用于药物表征。该系统采用线性分子表示，使SMILES字符串可直接作为文本处理，特别适用于药物设计任务（如使用序列到序列方法的逆合成预测）。SMILES可通过调整原子顺序生成同一分子的多种表示，利于数据增强。

基于深度学习的药物-靶点相互作用（DTI）预测模型常以分子指纹（MFPs）作为输入特征。分子指纹是编码分子结构或药理特性的比特串，广泛用于相似性搜索和定量构效关系（QSAR）分析。

药物靶点发现

AI算法可与系统生物学结合，挖掘多组学数据与患者临床健康信息间的相关性。自然语言处理（NLP）技术能从文献、专利和临床报告等非结构化数据中提取信息，揭示潜在相关通路和机制。

生物系统的复杂性给疾病分类模型构建带来挑战。模型常难以提供特定表型的稳定通路或可靠生物标志物。贝叶斯AI分析已用于整合分子谱型、多组学数据与临床信息，构建因果推断网络以识别靶点和生物标志物。

靶点结构验证

药物发现中的靶点验证环节也因数字工具得到增强。2008年发布的潜在药物靶点数据库（PDTD）包含1100多个3D蛋白质结构，覆盖830个药物靶点，提供多格式的蛋白及活性位点结构、相关疾病、生物功能和调控通路信息。

核磁共振（NMR）、X射线晶体学和冷冻电子显微镜是蛋白质结构解析的常用方法，但设备昂贵且耗时从数周至数年不等，取决于样本可用性和蛋白复杂度。

虚拟筛选

基于结构的虚拟筛选（SBVS）利用靶点3D结构预测其与化合物库的相互作用，并按预测亲和力排序。分子对接技术通过检查配体与靶点的几何相容性实现SBVS，但配体-受体结合的复杂性导致结合位点预测困难，易产生高假阳性与假阴性率。SBVS的准确性高度依赖搜索算法和打分函数。

基于配体的虚拟筛选（LBVS）通过分析配体化学和结构特征识别活性化合物。传统方法包括分子相似性搜索和QSAR建模。AI进步引入了机器学习和深度学习技术，优化了分子表征、相似性搜索和QSAR模型精度。AI驱动的框架通过多任务学习、迁移学习和图神经网络解决数据稀缺问题。

AI虚拟筛选模型利用理化性质或指纹的分子描述符构建活性回归或分类模型，比LBVS更具灵活性。深度学习分子对接使用AI算法加速对接并提升构象预测精度。BioNeMo、DiffDock和Rosetta VS等平台结合深度学习筛选分子。在RosettaVS对NaV1.7的案例研究中，团队通过主动学习筛选数十亿化合物空间，对接450万化合物，合成9个候选物，发现4个微摩尔级结合剂（合成化合物中命中率达44.4%）。

合成路线设计

确定合成路线是药物开发的关键环节。计算机辅助合成规划（CASP）帮助化学家识别最高效经济的合成路径，预测选择性和副产物并建议最佳条件。CASP已从基于人工编码反应规则的系统发展为AI辅助规划。AI算法能为多种反应推荐合成路线，甚至无需反应模板，利用指纹、图结构或SMILES字符串等分子表征。

基于规则的方法依赖反应数据库和文献提取的编码规则，但受限于化学文献指数级增长和知识库不完整。Synthia逆合成软件通过整合计算方法、专家编码规则及1200多万种商用起始材料目录加速路径设计，21年间积累超11.5万条规则，其评分函数和动态规划算法为所有目标构建合成路径。

无模板方法则借鉴自然语言处理，将合成预测框架化为序列到序列映射问题，用SMILES字符串将化学反应表示为句子，视作化学语言翻译。

临床试验优化

特定疾病领域（如肿瘤学）从I期到获批的临床试验失败率高达95%。在此背景下，AI有望在漫长周期与飙升成本的风暴中力挽狂澜。体内研究占新药开发成本主体，约23亿美元总成本中14亿美元归因于临床试验。这意味着早期药物发现的计算改进对降低成本影响有限。

能预测晚期临床试验结果的模型将大幅提升成功率。2005年白皮书提出的"虚拟生理人体"（VPH）概念，主张用虚拟孪生技术支持临床决策并预测安全性和有效性，但准确模拟人体复杂生物学面临重大挑战，且计算机临床试验预测的准确性仍需深入研究。

因此，AI技术主要聚焦于关联患者基因数据、电子健康记录（EHRs）、医学文献和临床试验数据库以预测试验成功率。其他模型用于优化试验设计、辅助患者匹配招募及监测试验依从性。

毒性是临床试验失败的常见原因，计算模型常可预测。PrOCTOR30291-4是一款基于树的集成机器学习模型，通过结合药物化学特征与靶点特征区分获批药物和因毒性失败的药物。PrOCTOR预测有毒的药物比预测安全的药物更频繁报告严重不良事件。

英矡智能开发的深度神经网络基于通路分析技术，通过分析药物诱导的转录变化预测46种不同副作用的临床试验结果。其inClinico平台可预测临床试验成功率、识别设计弱点并优化试验路径。Unlearn.ai、Saama和Phesi等公司提供类似服务。

自然语言处理技术还用于从电子病历中提取信息匹配患者与临床试验。IBM Watson团队开发的NLP试验匹配系统可创建详细患者临床档案，并与试验资格要求比对。

AI还用于追踪临床试验中的患者依从性。传统依赖药片计数和自述数据的方法易出错，而AI提升准确性。例如艾伯维（AbbVie）通过AiCure移动程序实施AI面部与图像识别系统，要求患者上传吞服药片视频，AI验证正确患者服用指定药物。在精神分裂症患者研究中，AI监测组24周依从率达89.7%，而改良直接观察疗法（mDOT）组为71.9%，差异达17.9%（精神分裂症患者典型依从率仅50%）。