利用FASTA和SMILES进行药物研发研究——STING：用于儿童急性淋巴细胞白血病药物重定位的数字孪生与深度学习 - 创新药物

利用FASTA和SMILES进行药物研发研究——STING：用于儿童急性淋巴细胞白血病药物重定位的数字孪生与深度学习Working with FASTA and SMILES for Drug Discovery Research – STING: Digital Twin & Deep Learning for Drug Repositioning of Childhood ALL

环球医讯 / 创新药物来源：sting.sdu.edu.tr美国 - 英语2025-09-24 00:41:08 - 阅读时长6分钟 - 2736字

本文详细阐述了FASTA和SMILES两种在药物研发中广泛应用的分子数据表示格式，FASTA主要用于表示DNA、RNA和蛋白质序列，适用于靶点识别、序列比对和同源建模等生物信息学应用；SMILES则作为化学结构的文本化表示方法，广泛应用于虚拟筛选、化合物数据库和结构活性关系研究。文章深入探讨了如何将这两种格式结合使用以支持基于结构的药物设计、生物信息学和化学信息学的多学科方法，并系统介绍了BioPython、RDKit等实用工具软件，为儿童急性淋巴细胞白血病(ALL)的药物重定位研究提供了关键技术支持，展示了数字孪生与深度学习在提升药物研发效率方面的创新应用。

利用FASTA和SMILES进行药物研发研究——STING：用于儿童急性淋巴细胞白血病药物重定位的数字孪生与深度学习

在药物研发研究中，FASTA和SMILES是两种广泛用于表示分子数据的格式。它们在计算化学、生物信息学和化学信息学中扮演着重要角色，经常用于药物研发流程中的分子建模、虚拟筛选、靶点识别和结构分析等任务。以下是关于如何在药物研发研究背景下使用这些格式的说明：

1. FASTA格式（生物序列）

FASTA格式主要用于表示生物序列，如DNA、RNA和蛋白质序列。在药物研发中，当处理蛋白质靶点、核酸或其他生物分子序列用于各种生物信息学应用（如蛋白质结构预测或序列比对）时，主要使用该格式。

如何在药物研发中使用FASTA：

靶点识别：
基因和蛋白质序列数据库（如GenBank、UniProt或RefSeq）以FASTA格式提供生物序列，可用于分析识别可药物靶点。
可利用这些序列预测小分子的可能结合位点、蛋白质-蛋白质相互作用，或执行序列比对以比较同源蛋白质。
序列比对和同源建模：
可使用BLAST（基本局部比对搜索工具）或类似工具将FASTA格式的序列与参考数据库进行比对（例如，寻找相似蛋白质或同源物）。这对靶点验证至关重要。
随后可使用同源建模基于比对序列预测蛋白质靶点的3D结构，这对基于结构的药物设计至关重要。
生物信息学工具：
BioPython及其FASTA解析器：诸如BioPython等库允许解析、操作和分析FASTA文件。可检索序列数据、比对多个序列或提取特定特征。
BLAST：一种广泛使用的工具，用于将FASTA序列与大型数据库进行比对，以获取功能和进化见解。
Clustal Omega：用于FASTA格式的多序列比对。

FASTA格式示例：

FASTA是一种纯文本格式，由描述行（以>开头）后跟单字母代码表示的序列组成。

sp|P12345|PROT_HUMAN Example Protein (Homo sapiens)

MKTAYIAKQRQISFVKSHFSKVLQLMFAEKLNVDLQGVGKMLKGHYTFIEES

LTFIFASGFD

在此示例中，sp|P12345|PROT_HUMAN是蛋白质的标识符（对应UniProt条目），序列为该蛋白质的氨基酸链。

2. SMILES格式（化学结构）

SMILES（简化分子线性输入系统）是一种基于文本的化学结构表示方法，用于描述分子，在化学信息学和药物研发中尤为重要。SMILES允许以线性格式表示化学结构，使其适用于存储、搜索和分析分子结构。

如何在药物研发中使用SMILES：

虚拟筛选和化合物数据库：
SMILES通常用于在PubChem、ChEMBL或ZINC等虚拟筛选数据库中表示小分子药物或先导化合物。可利用这些数据库搜索具有特定结构特征或生物活性的分子。
化学子结构搜索：SMILES支持子结构搜索，因此可搜索包含特定官能团或基序的分子（例如芳香环、羟基等）。
化学信息学工具：
RDKit和Open Babel：两者都是处理SMILES数据的常用库。可将SMILES字符串转换为分子结构、生成分子描述符、执行相似性搜索，并为分子对接或QSAR（定量构效关系）建模准备数据。
化学信息学工作流程：SMILES用作生成分子描述符或指纹的输入，这些可用于药物研发中的机器学习。
构效关系（SAR）研究：
SMILES字符串可用于SAR分析，研究化学结构变化如何影响生物活性。通过系统修改SMILES字符串（例如添加或移除官能团），可识别改善或降低活性的结构特征。
分子对接：
可使用Open Babel或ChemDraw等工具将SMILES转换为3D分子结构，随后用于分子对接研究，预测药物候选物与靶蛋白的结合效果。
分子描述符和指纹：
SMILES是生成分子描述符和指纹（如MACCS键或ECFPs）的便捷输入格式，这些用于分子聚类、虚拟筛选和QSAR建模。

SMILES格式示例：

SMILES表示将化学结构编码为字符字符串。以下是一些示例：

阿司匹林：CC(=O)Oc1ccccc1C(=O)O

此SMILES字符串表示阿司匹林，包含两个酯官能团和一个苯环。

咖啡因：CN1C=NC2=C1C(=O)N(C(=O)N2C)C

此SMILES字符串表示咖啡因，编码了带有甲基的嘌呤结构。

3. 在药物研发中联合使用FASTA和SMILES：

在现代药物研发中，整合FASTA和SMILES格式可结合生物和化学数据，促进基于结构的药物设计、生物信息学和化学信息学等多学科方法。联合使用这两种格式的方式包括：

从蛋白质到配体设计：
首先，使用FASTA获取蛋白质序列，然后分析它以预测3D结构、潜在结合位点和可药物区域（使用同源建模、AlphaFold或Swiss-Model等工具）。
获得靶蛋白结构后，可使用SMILES表示潜在小分子，并使用分子对接（使用AutoDock或Dock等软件）设计适合蛋白结合口袋的分子。
基于配体的药物设计：
若无蛋白结构可用，可使用基于SMILES的数据库进行基于配体的设计（例如，使用基于受体的方法对靶点进行小分子虚拟筛选）。识别出命中化合物后，可基于其SMILES表示优化结合构象和分子。
生物数据+化学数据：
ChEMBL或PubChem等工具同时提供SMILES字符串和生物活性数据，使您能够识别与特定蛋白质靶点（FASTA序列）相互作用的分子（SMILES）。这使您能够对潜在药物候选物进行大规模筛选。