牛津大学OpenBind联盟的研究人员发布了首个实验数据集和预测性AI模型,标志着改善人工智能(AI)在药物发现中应用的重要里程碑。
研究人员作为OpenBind联盟的一部分,已发布新的数据集和预测AI模型,加强了药物发现中AI所需的数据基础。
大多数药物通过与人体内特定的疾病相关蛋白质结合而发挥作用。预测哪些分子会结合以及结合的强度是早期药物设计的核心部分。尽管人工智能已经改变了蛋白质结构预测等领域,但其在预测药物如何与其靶点相互作用方面的影响较为有限,这很大程度上是因为这些相互作用的实验数据短缺。
OpenBind联盟的实验数据是在牛津郡Diamond Light Source使用高通量管道生成的,结合了自动化化学、可靠的结合测量和晶体学,数据被处理成适合机器学习的格式。
此次新发布提供了699种化合物与EV-A71病毒蛋白结合的详细X射线图像,其中601种化合物的结合强度已测量——这是单个蛋白质靶点最大的公开数据集之一。
"此次首次发布是一个重要步骤,因为它表明我们现在可以大规模生成高质量、标准化的数据,这些数据专门为药物发现中的人工智能设计。随着数据集的扩大,它将为研究人员提供改进这些模型性能所需的一致、可靠的信息。"
即使是用于结构生物学和药物发现的最先进的AI系统,如AlphaFold和Boltz,也受限于它们所训练的数据。虽然它们可以模拟与其训练数据中相似的生物结构,但预测外观明显不同的新靶点仍然是一个挑战。
OpenBind通过生成大量新的实验数据来解决这一限制。其目标是为AI模型提供所需的示例,使其能够超越识别现有数据中的模式,开始对新药物做出更可靠的预测,从而帮助简化筛选可行化合物的过程——这一过程通常是缓慢且昂贵的。
"高质量的实验数据对于开发新的和改进的AI模型至关重要。随着AI性能的提高,这反过来又有助于指导未来的实验,帮助加速发现。从这些早期循环中获得的经验教训已经帮助我们提高了管道的速度、一致性性和可重复性,这将在OpenBind发展壮大过程中至关重要。"
该数据集以及配套的EV-A71 2A蛋白酶靶向特异性AI模型已向全球研究人员公开,作为开发和测试新的计算方法的基础。由于数据结构一致,它还可以更严格地测试当前AI方法的性能以及需要改进的地方。
OpenBind由牛津大学和Diamond Light Source共同创立,是首个致力于以工业规模生产专为AI设计的药物发现数据集,并持续公开发布的项目。该项目获得了英国科学、创新和技术部(DSIT)800万英镑的资助。
该联盟还包括来自哥伦比亚大学、纪念斯隆-凯特琳癌症中心、开放分子软件基金会和华盛顿大学的研究人员,以及行业合作伙伴。随着项目扩展到包括更多靶点和更大数据集,计划进行更多的数据发布。一个新的通用预测模型OpenBind v1也预计在本月底发布。
"如果没有我们联盟成员和运营团队的贡献,我们不可能取得如此快速的进展,"牛津大学纳菲尔德医学系结构化学生物学教授、Diamond Light Source首席科学家Frank von Delft教授表示,"我们现在将实施从这一基础阶段获得的经验教训,扩大与主动发现项目链接的AI数据高产量生产的长期运营。"
OpenBind数据集可公开获取。
【全文结束】

