有机分子晶体结构的预测在多个行业中至关重要,尤其在制药和功能材料设计领域。在制药业中,晶体结构直接影响药物的溶解度和稳定性;在功能材料(如有机半导体)中,控制晶体结构对实现所需电子特性尤为关键。然而,由于有机晶体特有的微弱且多样的分子内与分子间相互作用,晶体结构预测(CSP)本质上是一项极具挑战性的任务,即使微小差异也可能导致完全不同的堆积排列。
CSP通常分两个阶段进行:结构探索与结构弛豫。第一阶段通过随机生成大量潜在结构并应用各类搜索算法进行探索;第二阶段则通过能量最小化对这些结构进行优化,以识别最稳定构型。但随机结构生成常产生低密度且不稳定的结构,而基于传统密度泛函理论(DFT)的结构弛豫方法计算成本高昂且耗时。
为解决这些挑战,日本早稻田大学数据科学中心副教授谷口拓也与先进理工学研究科深泽辽开发了突破性基于机器学习(ML)的CSP工作流程SPaDe-CSP,该流程整合了空间群(SP)和堆积密度(PD)预测器。谷口解释道:“我们的工作流程采用独特策略,机器学习模型首先预测最可能的空间群和晶体密度,在计算密集型弛豫步骤前过滤掉不稳定、低密度的候选结构。结合用于结构弛豫的高效神经网络势,该方法为识别实验观测的晶体排列提供了更直接可靠的路径。”该研究于2025年10月13日发表在《Digital Discovery》期刊。
SPaDe-CSP通过机器学习模型预测可能的空间群候选和晶体密度,有效缩小有机晶体的搜索空间。研究人员从剑桥结构数据库(CSD)提取包含32个空间群候选和169,656条数据条目的数据集用于训练测试。两个预测模型均采用MACCSKeys作为分子指纹,LightGBM作为预测函数,并通过Shapley加性解释(SHAP)分析识别关键结构特征以优化预测效果。
晶格采样生成的未弛豫结构,随后使用基于DFT数据预训练的高效神经网络势(NNP)进行结构弛豫,最终生成目标分子的能量密度图。SPaDe-CSP过程由两个超参数控制:空间群过滤的概率阈值与晶体密度的容差窗口。
研究团队首先在CSD数据集的模型分子上测试工作流程,分析成功率与超参数的关联性,继而在20种不同有机分子(含模型分子)上验证泛化能力。结果成功通过已知实验晶体结构验证,并与传统随机CSP方法对比。数据显示,成功率随空间群阈值提高和密度容差窗口缩小而上升;80%的测试化合物中,SPaDe-CSP成功预测实验晶体结构,成功率是随机CSP的两倍。研究还发现关键结构描述符与成功率呈线性相关,揭示晶体与分子层面的结构影响机制。
谷口表示:“该策略可显著加速制药和材料科学领域新型分子的设计发现流程。它能更快更可靠地识别新药最稳定有效的物理形态——这对维持溶解度、保质期及整体疗效至关重要,同时支持对具备最优电子特性的新型功能材料进行计算筛选。”
通过提升CSP的速度与可靠性,此项研究为加速救命药物研发及下一代技术突破迈出关键一步。
【全文结束】

