这款开源程序帮助研究人员绕过化学合成过程中的主要瓶颈。
安迪·埃克斯坦是英国埃克塞特的自由撰稿人。
化学合成是从较简单的前体创造复杂化学化合物的过程。图片来源:Andrew Lambert Photography/SPL
寻找畅销药物和神奇材料对化学家来说是一项艰巨的任务。为了制造他们有前景的化合物,他们必须在数百万已知的化学反应中进行筛选,每年还会新增数十万个反应,然后测试是否能够合成这些化合物。
现在,研究人员已经创建了一个人工智能系统,大大简化并加速了化学合成过程。该系统名为MOSAIC,在1月19日发表在《自然》杂志上的一项研究中有所描述。MOSAIC推荐的条件使研究人员能够生成35种化合物,这些化合物有潜力成为药品、农用化学品或化妆品等产品,而无需再进行任何进一步的筛选或调整。
"小分子的合成是药物发现和其他一些重要领域的慢速步骤,"该研究的合著者、康涅狄格州纽黑文耶鲁大学的化学家蒂莫西·纽豪斯(Timothy Newhouse)说。
纽豪斯补充说,MOSAIC可以消除这一瓶颈,因此可能带来更多的优质产品。它"能够起草完整的实验室操作指南——详细到化学家可以遵循的程度——以帮助创造以前不存在的分子"。
人工智能辅助化学
预测化学反应的条件一直是人工智能在化学中应用的一个关键焦点。其中最突出的工具之一是IBM基于大型语言模型(LLM)的RXN for Chemistry。
它使用一种称为简化分子线性输入系统(SMILES)的系统。这将化学3D结构转换为字母、数字和标点符号,更适合于识别语言的系统。相比之下,ChemCrow等大型语言模型是使用自然语言数据针对化学任务进行训练的。
SMILES方法使得处理起始材料和溶剂等化学信息变得更加容易。"我们的目标是建立一个通用模型,能够像化学家书写化学那样'阅读'化学——通过倾听实验程序的语言,并迅速将这种集体声音转化为实用建议,"纽豪斯说。纽豪斯补充说,将MOSAIC产生的逐步操作指南集成到自动化系统中将是一个"自然而然的下一步"。
研究人员使用他们之前开发的AI系统,将从专利中提取的约一百万个反应的数据库聚类为2,285个子集。使用这些子集,研究团队训练了Meta部分开源的Llama LLM,创建了2,498个单独的专家模型,每个模型都专门针对从一种类型分子开始的化学转化组合。这种方法可以在本地计算机上运行,因为它使用的参数比主要的大型语言模型要少。
北卡罗来纳州立大学材料科学家马丁·赛弗里德(Martin Seifrid)表示,MOSAIC的显著之处在于它避免了"将尽可能大的模型应用于问题,而是选择专注于精心设计的更小'专家'模型系统"。"每个专业模型在其领域内都更加准确,"赛弗里德说。
瓶颈突破
【全文结束】

