研究人员开发了一种AI算法,ARC-SV,用于检测人类基因组中以前方法遗漏的复杂结构变异。分析了超过4000个基因组后,研究人员发现了数千个复杂的变异,其中许多影响大脑相关基因,并与精神分裂症和双相情感障碍有关。这些变异通常位于对大脑功能至关重要的区域,影响基因的表达方式,为了解精神疾病的风险提供了新的见解。这一突破为更深入地理解精神疾病和开发新的治疗方法铺平了道路。
关键事实:
- AI算法ARC-SV识别了超过8000个复杂的DNA变异。
- 这些变异出现在大脑相关基因中,并与精神分裂症和双相情感障碍有关。
- 这种方法提高了对遗传因素在精神疾病中作用的理解。
来源:斯坦福大学
构成人类基因组的30亿个碱基对不仅仅是身体的指令手册。这些碱基对的排列顺序变化是疾病起源和我们进化历史的标志。它们可以很简单,例如少数几个碱基对的位置互换;也可以很复杂,例如数万个碱基对的倒置并缺失多个部分。目前最先进的读取基因组的技术,称为全基因组测序,适合于发现简单的变异,但在寻找复杂的结构变异方面存在不足。
现在,由斯坦福医学院领导的一项新研究开发了一种基于人工智能的方法,可以从全基因组测序数据中识别复杂的结构变异。该研究于9月30日发表在《细胞》杂志上,使用来自全球4000多个基因组的数据创建了一个复杂的结构变异目录。这些变异经常出现在控制大脑的基因中,并且位于与人类进化相关的基因组区域。
研究人员还表明,一些复杂的结构变异影响了被诊断为精神分裂症或双相情感障碍的人的大脑中大脑相关基因的表达。这项工作的主要作者、精神病学和行为科学以及遗传学副教授Alexander Urban博士说:“这项工作是解开精神疾病遗传和分子基础的重要一步,这表明具有强烈遗传成分的脑部疾病和其他疾病应该进行复杂的结构变异分析。”“任何全基因组序列都应该通过这种新算法运行;这将使我们能够从当前被忽略的数据中找到重要的答案。”
几乎迄今为止在人类基因组中发现的所有变异都是简单的。但新算法的输出显示,每个基因组也有80到100个复杂的结构变异。“只寻找简单变异就像校对书稿时只查找改变单个字母的拼写错误,”Urban说,“你会忽略掉错乱或重复的单词,甚至可能会错过整章内容。所有这些都应该在书稿送去印刷之前被发现。”
自动重建复杂结构变异算法(简称ARC-SV)捕获各种DNA重排,并在发现复杂结构变异方面的准确率达到95%。该算法使用AI模型,并在来自具有不同血统的人的数十个完整基因组(称为泛基因组)上进行了训练。该算法发现了超过8000个不同的复杂结构变异,长度在200到100,000个碱基对之间。许多变异位于调节大脑发育和功能的基因组区域。
研究人员进一步研究了这些变异是否与精神疾病相关。
能够轻松找到和研究复杂的结构变异有助于解释哪些基因组的改变导致了可遗传的精神疾病。该研究考察了两种此类疾病:精神分裂症和双相情感障碍。全基因组关联研究(GWAS)已经确定了许多携带精神疾病诊断风险的基因组位置。但GWAS结果未能详细解释遗传风险,使其难以付诸行动。“我们在识别精神疾病遗传成分方面取得了惊人的进展,但仍有一些重要的东西缺失,”Urban说,“GWAS结果告诉我们某种与疾病相关的DNA变化位于基因组的某个位置。但GWAS提供的信息有些模糊。这就像知道一本书的第118、237和304页上有错误,但我们不知道是什么样的错误或涉及哪些单词。”
Urban解释说,虽然GWAS结果可能引导研究人员查看第118页上的问题,但知道复杂结构变异的序列就像在那一页上用黄色荧光笔标记了10个单词的句子,其中一个单词错乱,另一个单词重复。“就是这样确切,”他说。
研究人员对ARC-SV算法的输出进行了测试。他们使用了100多个死后脑组织样本的全基因组序列和基因表达测量,这些样本来自健康个体和被诊断为精神分裂症或双相情感障碍的人,以调查复杂的结构变异可能在做什么。这些变异往往位于或与已知与精神分裂症或双相情感障碍风险相关的GWAS位置附近或重叠。复杂的结构变异还影响了附近基因的表达方式——改变DNA中指令的读出方式——这表明这些变异可能对疾病有贡献。“识别和研究复杂的结构变异将使我们更深入地了解DNA如何变异,并提供分子线索,使我们能够绘制导致疾病的生物功能轨迹图,并治疗疾病,”该研究的第一作者、精神病学和行为科学讲师Bo Zhou博士说。
(全文结束)

