卡内基梅隆大学与合作机构开发的人工智能工具正在揭示罕见病的遗传线索,可能加速影响小众人群疾病的诊断与治疗。研究人员通常需要数万患者的遗传数据来研究基因变异与疾病的关系,但针对患病率低于0.01%的罕见疾病,获取大型数据集尤为困难。
CMU计算机学院的研究团队开发了KGWAS深度学习方法,通过整合大规模功能基因组学数据,增强传统全基因组关联研究(GWAS)的检测能力。这种方法使小样本队列的遗传关联检测能力显著提升,有望加速罕见病研究并促进新药开发。
什么是GWAS?
全基因组关联研究(GWAS)通过扫描大规模人群基因组来识别与特定疾病或性状相关的遗传变异。CMU计算机学院雷和斯蒂芬妮·莱恩计算生物学系助理教授Martin Zhang表示:"GWAS是药物发现生态系统的核心工具,但传统方法需要大量患病人群样本才能建立统计关联。对于患病率仅0.1%-0.01%的罕见病,这种方法存在根本性局限。"
传统GWAS研究需要10万至百万份基因样本,其中约1万例病例才能建立可靠的基因变异关联。罕见病如重症肌无力等自体免疫疾病,因病例分散且招募困难,常导致研究受阻。
什么是KGWAS?
研究团队开发的知识图谱GWAS(KGWAS)方法整合多种遗传信息,建立基因变异与罕见病性状的关联。斯坦福大学计算机系博士生Kexin Huang解释说:"我们整合了多种基因测量技术,利用知识图谱将1100万条遗传变异、基因及基因程序(具有共同功能的基因组)关联起来。"
KGWAS通过训练人工智能模型,基于汇总GWAS证据预测每个遗传变异与特定疾病的关联强度。该方法不仅提升了数据信噪比,更在样本量需求上较现有技术降低2.7倍。研究表明,KGWAS能比现有最佳GWAS方法多识别100%的统计显著关联。
"KGWAS的应用范围涵盖罕见病诊断到药物发现,本质上改进了人类遗传学的基础算法。"Huang表示。该方法通过将功能数据自动化转化为发现,为精准医疗开辟了新路径。
Martin Zhang总结道:"KGWAS就像一个自动化框架,能将现有功能数据转化为医学发现。"
【全文结束】

