MultiCNKG：利用大型语言模型整合认知神经科学基因与疾病知识图谱 - AI与医疗健康

MultiCNKG：利用大型语言模型整合认知神经科学基因与疾病知识图谱[2510.06742] MultiCNKG: Integrating Cognitive Neuroscience, Gene, and Disease Knowledge Graphs Using Large Language Models

环球医讯 / AI与医疗健康来源：arxiv.org美国 - 英语2025-10-12 12:56:26 - 阅读时长2分钟 - 691字

研究团队开发了创新框架MultiCNKG，通过GPT-4等大型语言模型整合认知神经科学知识图谱、基因本体和疾病本体三大核心数据源，构建包含6900个节点和1.13万条边的多层知识网络，覆盖基因、疾病及认知过程等关键维度；评估显示其精确率达85.20%、召回率87.30%且专家验证通过率89.50%，在个性化医疗、认知障碍诊断及神经科学研究中展现出突破性应用价值，显著提升从分子机制到行为表现的跨领域知识关联能力，为生物医学研究提供了高效可靠的知识整合新范式

大型语言模型（LLMs）的出现彻底革新了生物医学与认知科学领域知识图谱（KGs）的整合方式，有效克服了传统机器学习方法在捕捉基因、疾病和认知过程间复杂语义关联方面的局限。我们提出MultiCNKG创新框架，该框架融合三大核心知识源：认知神经科学知识图谱（CNKG）包含2900个节点和4300条边，涵盖9类节点类型与20类边类型；基因本体（GO）包含4.3万个节点和7.5万条边，具有3类节点类型及4类边类型；疾病本体（DO）包含1.12万个节点和8800条边，含1类节点类型与2类边类型。通过运用GPT-4等大型语言模型，我们执行实体对齐、语义相似度计算及图谱增强，成功构建出连贯的知识图谱，将遗传机制、神经疾病与认知功能有机互联。最终形成的MultiCNKG包含6900个节点（涵盖5类节点，如基因、疾病、认知过程）和1.13万条边（跨越7类关系，如"导致"、"相关联"、"调控"），实现了从分子层面到行为层面的多维度知识视图。评估指标显示其精确率85.20%、召回率87.30%、覆盖率92.18%、图谱一致性82.50%、新颖性检测40.28%及专家验证通过率89.50%，充分验证其稳健性与逻辑一致性。在链接预测测试中，TransE模型（平均秩391，平均倒数秩0.411）与RotatE模型（平均秩263，平均倒数秩0.395）的表现与FB15k-237、WN18RR等基准测试集相比具有竞争力。该知识图谱显著推动了个性化医疗实践、认知障碍临床诊断以及认知神经科学假设构建等关键领域的应用发展。

【全文结束】