GenMol:基于离散扩散的药物发现通才模型
摘要:药物发现是一个涉及多阶段多任务的复杂过程,但现有分子生成模型仅能应对部分任务。我们提出通用分子生成模型(GenMol),该框架仅使用单一离散扩散模型即可处理多样化的药物发现场景。GenMol通过非自回归双向并行解码生成基于序贯附着的片段嵌入(SAFE)序列,从而利用不依赖特定标记顺序的分子上下文,同时提升采样效率。GenMol以分子片段为基本构建单元,引入片段重掩码策略——通过再生被掩码片段来优化分子结构,有效探索化学空间。我们进一步提出分子上下文引导(MCG),这是专为GenMol掩码离散扩散定制的引导方法。GenMol在从头生成和片段约束生成任务上显著超越先前基于GPT的模型,并在定向命中生成与先导化合物优化中取得最先进性能。结果表明GenMol能应对广泛的药物发现任务,为分子设计提供统一且通用的解决方案。
大众摘要:药物发现过程包含多个复杂步骤,但当前多数用于分子生成的人工智能模型仅能处理少数任务,限制了其在真实药物研发中的应用价值。本研究推出名为GenMol的新框架,这是一种灵活的AI模型,仅需单一系统即可应对多样化的药物发现任务。GenMol实现并行生成,能高效构建分子结构而不受分子序列标记顺序的限制。该模型具备多维度生成能力:通过组合称为"片段"的小型分子亚结构生成新分子,并利用"片段重掩码"技术再生特定片段以优化分子。GenMol还采用"分子上下文引导"(MCG)机制校准自身预测,充分整合给定分子信息。在设计新分子与优化药物候选物等关键任务中,GenMol性能全面超越现有方法(包括GPT基线模型),为加速药物研发提供了强大的一体化工具。
主要领域:应用领域→化学、物理与地球科学
关键词:药物发现、分子生成、离散扩散
投稿编号:8383
【全文结束】