西北大学的生物物理学家开发了一种新的计算工具,用于识别导致糖尿病、癌症和哮喘等复杂疾病的基因组合。
与单基因疾病不同,这些疾病受到多个基因相互作用的影响。然而,可能的基因组合数量巨大,使得研究人员很难确定导致疾病的特定基因组合。
通过使用生成式人工智能(AI)模型,这种新方法放大了有限的基因表达数据,使研究人员能够解析导致复杂性状的基因活动模式。这些信息可以为涉及多个基因分子靶点的新且更有效的疾病治疗方法提供支持。
这项研究将在6月9日当周发表在《美国国家科学院院刊》上。
“许多疾病是由多个基因共同决定的,而不仅仅是一个基因,”该研究的资深作者、西北大学的阿迪尔森·莫特说。“你可以将像癌症这样的疾病比作飞机失事。大多数情况下,需要发生多重故障才会导致飞机失事,不同的故障组合可能会导致相似的结果。这使得定位原因变得更加复杂。我们的模型通过识别关键参与者及其集体影响来简化问题。”
莫特是一位复杂系统专家,担任西北大学文理学院查尔斯·E. 和艾玛·H. 莫里森物理学教授,并担任网络动力学中心主任。该研究的其他作者——都与莫特实验室有关——包括博士后研究员本杰明·库兹内茨-斯佩克、研究生布杜卡·奥戈诺尔和研究助理托马斯·威托克。
当前方法的不足
几十年来,研究人员一直在努力解开复杂人类特征和疾病的遗传基础。即使是身高、智力和发色等非疾病特征也依赖于基因集合。现有的方法,如全基因组关联研究,试图找到与某一特征相关的单个基因。但它们缺乏统计能力来检测基因组的集体效应。
“人类基因组计划告诉我们,我们只有单细胞细菌基因数量的六倍,”莫特说。“但人类比细菌复杂得多,基因数量本身无法解释这一点。这突显了多基因关系的普遍性,必须是基因之间的相互作用造就了复杂的生命。”
“识别单个基因仍然有价值,”威托克补充道。“但只有一小部分可观察到的特征或表型可以通过单个基因的变化来解释。相反,我们知道表型是许多基因共同作用的结果。因此,通常多个基因共同导致某一特征的变化。”
不是基因而是基因表达
为了帮助弥合长期以来基因型和表型之间的知识差距,研究团队开发了一种结合机器学习和优化的复杂方法。
这种方法称为转录组范围条件变分自动编码器(TWAVE),该模型利用生成式AI从有限的人类基因表达数据中识别模式。因此,它可以模拟疾病和健康状态,以便将基因表达的变化与表型变化相匹配。该模型不是单独检查单个基因的影响,而是识别一组基因,这些基因共同导致复杂性状的出现。然后,该方法使用优化框架来确定最有可能使细胞状态从健康转变为疾病或反之亦然的具体基因变化。
“我们关注的是基因表达而不是基因序列,”威托克说。“我们在临床试验数据上训练了我们的模型,因此我们知道哪些表达谱是健康的或患病的。对于少量基因,我们还有实验数据,显示当基因开启或关闭时网络如何响应,我们可以将这些数据与表达数据匹配,以找到与疾病相关的基因。”
专注于基因表达有多种好处。首先,它绕过了患者隐私问题。基因数据——一个人的实际DNA序列——本质上是个人独有的,提供了健康、遗传倾向和家庭关系的高度个性化蓝图。相比之下,表达数据更像是细胞活动的动态快照。其次,基因表达数据隐含地考虑了环境因素,这些因素可以“上调”或“下调”基因以执行各种功能。
“环境因素可能不会影响DNA,但肯定会影响基因表达,”莫特说。“因此,我们的模型间接地考虑了环境因素。”
个性化治疗之路
为了证明TWAVE的有效性,研究团队在几种复杂疾病上进行了测试。该方法成功识别了导致这些疾病的基因——其中一些被现有方法遗漏。TWAVE还揭示了不同的基因组合可以在不同的人身上引起相同的复杂疾病。这一发现表明,可以根据患者的特定基因驱动因素量身定制个性化治疗。
“一种疾病在两个不同个体中的表现可能是相似的,”莫特说。“但在原则上,由于遗传、环境和生活方式的差异,每个人可能涉及不同的基因组合。这些信息可以指导个性化治疗。”
该研究题为“生成预测负责复杂性状的因果基因集”,得到了国家癌症研究所(资助编号P50-CA221747)通过Malnati脑瘤研究所、NSF-Simons理论和数学生物学国家研究所(国家科学基金会资助编号DMS-2235451和Simons基金会资助编号MP-TMPS-00005320)以及国家科学基金会(资助编号MCB-2206974)的支持。
(全文结束)

