BioMiner是一种新型多模态框架,可自动化提取蛋白-配体生物活性数据,从而加速药物发现进程并助力识别新型治疗候选药物。
生物医药文献的指数级增长为药物研发制造了关键瓶颈,人工整理工作已不堪重负,难以有效提取至关重要的蛋白-配体生物活性数据。这一挑战因解读分散式生化语义和重建精确化学结构(包括复杂的Markush结构)的难度而进一步加剧。
解构生物活性:语义解释与结构解析结合
BioMiner的核心创新在于明确分离生物活性语义解释与配体结构构建。该多模态提取框架采用直接推理处理语义理解,并创新性应用基于化学结构的视觉推理范式推断结构间关系。关键突破是将精确分子构建转移至专业化学工具,从而优化流程。这一方法在最新arXiv预印本中详述,同时解决了理解复杂生物相互作用和准确表征相关化学实体的双重挑战。
BioVista基准测试与量化性能提升
为严格评估自动化提取效果,研究团队创建了BioVista综合基准库,包含来自500篇出版物的16,457条生物活性条目。BioMiner在此基准测试中表现卓越,生物活性三元组提取F1分数达0.32,该量化基线充分验证了系统的数据提取能力。其实际价值更体现在构建了基于11,683篇论文的预训练数据库,使下游模型性能提升3.9%。
加速发现与识别新型治疗药物
BioMiner的实际效用在三大关键领域得到验证:首先,其大规模数据聚合能力为AI模型预训练提供强力支持;其次,在人机协同工作流中,该系统使高质量NLRP3生物活性数据产出翻倍,相比28个QSAR模型性能提升38.6%,并成功识别16个具有新型分子支架的候选药物;最后,在PoseBusters数据集的蛋白-配体复合物生物活性注释中,相比人工流程实现5.59倍速度提升和5.75%的准确率增长,充分展现其对药物发现管线的革命性加速潜力。
【全文结束】

