OpenBind发布首个开放药物发现数据集和AI模型 - AI与医疗健康

OpenBind发布首个开放药物发现数据集和AI模型OpenBind releases first open dataset and AI model for drug discovery | Oxford University

环球医讯 / AI与医疗健康来源：www.ox.ac.uk英国 - 英语2026-06-03 01:39:08 - 阅读时长3分钟 - 1412字

OpenBind联盟首次发布的实验数据标志着改善人工智能在药物发现中应用的重要里程碑。该数据集包含699种化合物与EV-A71病毒蛋白结合的详细X射线图像，其中601种化合物的结合强度已测量，是单个蛋白质靶点最大的公开数据集之一。OpenBind由牛津大学和Diamond Light Source共同创立，获得英国科学、创新和技术部800万英镑资助，旨在为AI药物发现提供高质量、标准化的数据基础。该项目汇集了全球多家顶尖机构的研究力量，通过生成大量实验数据，帮助AI模型超越识别现有模式，开始对新药物做出更可靠的预测，从而加速药物研发进程。

牛津大学OpenBind联盟的研究人员发布了首个实验数据集和预测性AI模型，标志着改善人工智能(AI)在药物发现中应用的重要里程碑。

研究人员作为OpenBind联盟的一部分，已发布新的数据集和预测AI模型，加强了药物发现中AI所需的数据基础。

大多数药物通过与人体内特定的疾病相关蛋白质结合而发挥作用。预测哪些分子会结合以及结合的强度是早期药物设计的核心部分。尽管人工智能已经改变了蛋白质结构预测等领域，但其在预测药物如何与其靶点相互作用方面的影响较为有限，这很大程度上是因为这些相互作用的实验数据短缺。

OpenBind联盟的实验数据是在牛津郡Diamond Light Source使用高通量管道生成的，结合了自动化化学、可靠的结合测量和晶体学，数据被处理成适合机器学习的格式。

此次新发布提供了699种化合物与EV-A71病毒蛋白结合的详细X射线图像，其中601种化合物的结合强度已测量——这是单个蛋白质靶点最大的公开数据集之一。

"此次首次发布是一个重要步骤，因为它表明我们现在可以大规模生成高质量、标准化的数据，这些数据专门为药物发现中的人工智能设计。随着数据集的扩大，它将为研究人员提供改进这些模型性能所需的一致、可靠的信息。"

即使是用于结构生物学和药物发现的最先进的AI系统，如AlphaFold和Boltz，也受限于它们所训练的数据。虽然它们可以模拟与其训练数据中相似的生物结构，但预测外观明显不同的新靶点仍然是一个挑战。

OpenBind通过生成大量新的实验数据来解决这一限制。其目标是为AI模型提供所需的示例，使其能够超越识别现有数据中的模式，开始对新药物做出更可靠的预测，从而帮助简化筛选可行化合物的过程——这一过程通常是缓慢且昂贵的。

"高质量的实验数据对于开发新的和改进的AI模型至关重要。随着AI性能的提高，这反过来又有助于指导未来的实验，帮助加速发现。从这些早期循环中获得的经验教训已经帮助我们提高了管道的速度、一致性性和可重复性，这将在OpenBind发展壮大过程中至关重要。"

该数据集以及配套的EV-A71 2A蛋白酶靶向特异性AI模型已向全球研究人员公开，作为开发和测试新的计算方法的基础。由于数据结构一致，它还可以更严格地测试当前AI方法的性能以及需要改进的地方。

OpenBind由牛津大学和Diamond Light Source共同创立，是首个致力于以工业规模生产专为AI设计的药物发现数据集，并持续公开发布的项目。该项目获得了英国科学、创新和技术部(DSIT)800万英镑的资助。

该联盟还包括来自哥伦比亚大学、纪念斯隆-凯特琳癌症中心、开放分子软件基金会和华盛顿大学的研究人员，以及行业合作伙伴。随着项目扩展到包括更多靶点和更大数据集，计划进行更多的数据发布。一个新的通用预测模型OpenBind v1也预计在本月底发布。

"如果没有我们联盟成员和运营团队的贡献，我们不可能取得如此快速的进展，"牛津大学纳菲尔德医学系结构化学生物学教授、Diamond Light Source首席科学家Frank von Delft教授表示，"我们现在将实施从这一基础阶段获得的经验教训，扩大与主动发现项目链接的AI数据高产量生产的长期运营。"

OpenBind数据集可公开获取。

【全文结束】