MicrobiomeKG是一种创新的知识图谱工具,系统整合了微生物组研究数据与宿主健康关联。该工具通过算法从40篇微生物组研究论文的补充表格中提取知识断言,构建包含27,772个节点和112,118条关联的生物医学网络。该知识图谱基于Biolink本体框架标准化数据,并开发神经网络模型对图谱关系进行打分(0-178分,平均74分),有效解决研究方法异质性带来的分析挑战。
核心发现与创新
该工具通过三种典型应用案例验证其科学价值:
- 寄生虫感染与非酒精性脂肪肝(NAFLD)关联:发现嗜肝菌科和乳酸菌目微生物与NAFLD的显著关联(调整p值分别为0.0026和趋近于0),揭示肠道微生物在肝病进展中的调控作用。
- Alistipes属与炎症机制:整合基因(Saa1、Ghr等)、色氨酸代谢物和短链脂肪酸(丁酸、丙酸等)多维度数据,阐明该菌属与炎症标志物的复杂关系网络(8项正相关/负相关关系)。
- 双歧杆菌与注意力缺陷多动障碍(ADHD):通过四种中心性算法确认双歧杆菌是ADHD关联的核心微生物节点(节点介数中心性达74分),支持临床干预研究中该菌株的治疗潜力。
技术架构与数据质量
该知识图谱采用标准化流程处理数据:
- 断言生成:利用Python Polars库提取补充表格数据,通过配置文件指导的变形规则(含数学运算、正则提取等)生成知识断言
- 语义标准化:基于Biolink本体规范节点类别(基因、物种、化学物质等)和关系谓词(相关/影响),采用CURIEs标准化标识符
- 智能评分系统:构建三层数学神经网络模型,融合样本量、统计方法、文献背景等11个特征,输出标准化关系权重(R²=0.87)
科学意义与应用前景
该工具已部署为开放API服务,与NCATS生物医学数据转换器生态系统集成。其创新价值体现在:
- 突破传统文献挖掘限制,从补充数据提取未被讨论的潜在关联(如3-甲酰基吲哚的矛盾关联)
- 提出微生物群与宿主健康的新型关联网络(如TNFRSF11A基因在炎症疾病中的新作用)
- 支持个性化医疗发展,通过图谱嵌入技术促进表型分类、微生物网络探索等AI应用
局限与展望
当前版本涵盖40篇论文数据(2025年基准),相比手动整合的Disbiome数据库(1,179篇)仍有扩展空间。研究团队正开发自动化抽取系统,计划整合自然语言处理与大语言模型技术,提升数据采集效率。未来将扩展至多组学分析领域,增强对微生物-宿主互作机制的解析能力。
【全文结束】