纵向分析电子健康记录揭示与后续阿尔茨海默病发展相关的医疗状况 - 认知障碍

摘要

背景

已知某些健康状况会增加阿尔茨海默病（AD）的风险。本研究旨在通过利用日益丰富的电子健康记录（EHRs）资源，系统地识别与后续AD发展相关的医疗状况。

方法

这项回顾性队列研究使用了来自两个独立数据库（MarketScan和VUMC）的1.53亿人的去标识化电子健康记录，确定AD病例和年龄与性别匹配的对照组。通过跟踪AD诊断前10年窗口期的EHRs，并比较AD病例与对照组之间的EHRs，我们识别出更可能出现在后来发展为AD人群中的医疗状况。我们还使用来自两个大规模生物样本库（BioVU和英国生物银行，总计N=450,000）的数据，评估了这些状况与AD遗传学相关的遗传基础。

结果

我们在MarketScan中识别出43,508例AD病例和419,455名匹配的对照，在VUMC中识别出1,320例AD病例和12,720名匹配的对照。我们在MarketScan和VUMC数据库中分别检测到406种和102种在将来AD病例中显著富集的医疗表型。在两个EHR数据库中，精神障碍和神经系统疾病是前两位最富集的临床类别。超过70种医疗表型在两个EHR数据库中得到复制，主要由精神障碍（如抑郁症）、神经系统疾病（如睡眠障碍）、循环系统疾病（如脑动脉粥样硬化）和内分泌/代谢疾病（如2型糖尿病）组成。我们确定了19种表型，这些表型要么与AD的个体风险变异相关，要么与AD的多基因风险评分相关。

结论

本研究对来自独立大规模数据库的纵向EHRs的分析，能够稳健地识别与后续AD发展相关的健康状况，突显了可能通过治疗和干预降低AD风险的机会。

背景

阿尔茨海默病（AD）在美国和全球范围内造成巨大的医疗负担。AD是一种与年龄相关的神经退行性疾病，其特征是最初记忆下降，随后执行功能和认知功能受损[1]。直到最近，还没有有效的AD疾病修饰治疗方法。自2021年以来，已有三种经FDA批准的抗淀粉样蛋白药物，证明在清除病理性淀粉样蛋白和减缓早期阿尔茨海默病患者（轻度认知障碍或由阿尔茨海默病引起的轻度痴呆）的认知衰退方面有效[2,3,4]。已知AD会发展数十年，在出现临床症状和记忆及认知能力下降之前，大脑中会逐渐积累淀粉样蛋白和tau蛋白。几种健康状况已被证明会增加晚年发展阿尔茨海默病的风险。例如，中年高血压、高脂血症和中风已被证明会增加二十年后AD的发病率[5,6]；50岁以上成年人视力变化与大脑中AD两种标志蛋白的积累有关[7,8]；与同龄人相比，后来被诊断为AD的个体更频繁地出现抑郁症[9,10]。尽管这些状况与AD的关系可能各不相同（有些是风险因素，其他可能是早期表现），但它们都与AD发病率升高相关。这些状况可能有助于在记忆和/或认知功能丧失等标志性临床症状出现之前，更早地识别与AD相关的功能变化以及潜在的干预措施。据估计，仅将AD的发病时间推迟五年就可使发病率减半[11]。

目前预测AD未来发展的医疗状况清单有限。纵向电子健康记录（EHRs）可以追踪疾病进展，并可能揭示AD发生前与AD相关的功能变化。许多研究已证实EHRs中的AD诊断代码（计费代码、ICD代码）足够准确可用于研究目的，在大多数医疗系统中AD诊断代码的阳性预测值约为75%[12,13,14]。我们认为，来自数百万人的纵向EHRs可以促进系统识别预测AD未来发作的医疗状况。

在此，我们系统地挖掘了MarketScan（一个包含超过1.5亿个体的国家级基于索赔的数据库）中的纵向EHR数据，作为发现队列，识别出在后来收到AD诊断的人群中显著富集的医疗表型。我们将VUMC基于医院的EHR系统（约300万患者）中的纵向数据作为独立复制队列，以验证我们的发现。为进一步区分可能是AD潜在中介的临床表型，我们通过使用最新AD和相关痴呆全基因组关联研究（GWAS）构建的遗传工具进行表型组关联（PheWAS）[15]分析，评估了稳健识别的医疗表型的遗传基础[16]。

方法

数据来源

MarketScan索赔数据库包含2003年至2013年间注册的超过1.51亿美国人的国家级健康记录集合[17]。该数据库包含基于保险索赔的记录，包括住院和门诊医疗事件、手术、药物和医疗支出。数据来自多家私人保险公司、管理护理组织、健康计划提供商和州医疗补助机构。因此，所涵盖的患者群体代表了美国社会中富裕、有私人保险的部分[17,18]。

合成衍生品（SD）是范德比尔特大学医学中心（VUMC）EHR数据库的去标识化镜像。SD包含诊断代码、手术代码、住院记录、医生进展记录、出院摘要、实验室数据和用药历史。SD数据定期更新，本研究中我们提取了截至2020年1月底的所有可用数据，包含约300万人的EHRs。

BioVU是VUMC的生物样本库，拥有来自SD的25万多名个体的DNA样本。用于基因分型的样本在医疗主场为VUMC的患者中有所富集。项目运营、伦理考虑以及持续监督和患者参与的详细描述已发表[19]。BioVU的基因型数据使用单倍型参考联盟参考面板（版本r.1.1）[20,21]和IMPUTE2软件[22]进行推断。对于分析，基于遗传祖先的主成分分析（PCA）选择了欧洲血统的样本。

纳入的BioVU参与者在最后一次记录的ICD代码时的中位年龄为64岁（IQR=[47,75]），56%为女性。肥胖、糖尿病、高脂血症和原发性高血压的患病率分别为35%、20%、26%和35%。在英国生物银行人群中[23]，入组时的平均年龄为56.5岁（SD=8.0），女性占54%。自报的肥胖、糖尿病、高脂血症和原发性高血压患病率分别为3%、5%、9%和19%。

识别AD病例和匹配对照

先前研究表明，EHRs中记录的AD诊断代码达到足够的研究准确性，在大多数医疗系统中AD诊断代码的阳性预测值为75%[12,14]。在本研究中，我们使用AD诊断代码（ICD9: 331.0, 3310.00；ICD10: F00, F00.0, F00.1, F00.2, G30, G30.0, G30.1, G30.8, G30.9）定义AD病例。我们要求在不同就诊日期至少有两个代码来确认AD病例。我们将对照定义为记录中直到最后一次就诊都没有任何AD诊断代码的个体。为了增强统计能力，我们为每个AD病例匹配4至10个对照，而不是使用1:1的病例/对照比例（如果可用的对照超过10个来匹配一个AD病例，我们随机抽取10个对照个体组成该AD病例的对照组；如果少于4个对照可用于匹配一个AD病例，我们不考虑该AD病例及其对照）。对照是按AD病例选择的，使其在索引日期的年龄和性别相匹配。对于AD病例，索引日期是首次AD诊断日期；对于对照，索引日期是EHRs中最后一次记录的就诊日期。我们要求所有AD病例和匹配对照在索引日期前至少有10年的EHRs。

医疗表型定义

我们使用先前描述的从电子健康记录的计费代码导出的表型[15]来定义医疗表型。得到的二元表型称为"phecodes"，每个表型可能对应多个诊断代码（ICD9或ICD10）。例如，"伴有脑退化的痴呆"的phecode包含一系列ICD代码，包括额颞叶痴呆（ICD9代码331.1）和路易体痴呆（ICD9 331.82）。有关详细信息，可以从 R包中的mapCodesToPhecodes函数自动将ICD代码转换为phecodes。Phecode定义了病例、对照和排除标准，我们要求每个phecode至少在不同就诊日期有两个代码来确认每个phecode的病例。

统计分析

对于每个二元表型（"phecode"），我们在10年前期比较了AD患者和匹配对照之间的病例数（唯一个体）。使用Fisher精确检验（R包"stats"中的fisher.test函数）评估AD患者与对照相比相关医疗事件的相对富集情况。我们要求每个phecode在AD和非AD组中至少有5个病例，以满足应用Fisher精确检验的标准。分析分别在MarketScan和VUMC中进行。在每个站点，我们应用Bonferroni校正来确定统计显著性的阈值。分析了MarketScan中的1,722个phecodes和VUMC中的1,112个phecodes的富集情况。为了识别AD富集表型（phecodes）中不成比例富集的临床类别，我们将每个临床类别中富集phecode的比例与富集phecode的总体比例（即MarketScan总体比例=466/1722=0.27，VUMC总体比例=102/1112=0.092）进行比较，使用单侧比例检验（R包"stats"中的prop.test函数，参数alternative="greater"）。类似地，为了识别AD耗竭表型中不成比例减少的临床类别，我们将每个临床类别中耗竭phecode的比例与耗竭phecode的总体比例（即MarketScan总体比例=106/1722=0.06，VUMC总体比例=2/1112=0.0018）进行比较。

敏感性分析

AD诊断与其他痴呆类型共存的现象在EHRs中很常见。为评估这种共病对富集估计的敏感性，我们在更大的MarketScan数据库中进行了敏感性分析。具体而言，在MarketScan中，我们排除了也携带其他痴呆类型诊断的AD病例，包括"血管性痴呆"、"额颞叶痴呆"、"路易体痴呆"、"痴呆"、"伴有脑退化的痴呆"、"谵妄痴呆和遗忘及其他认知障碍"以及"老年性痴呆"。相应地，我们也移除了与这些AD病例匹配的对照。这导致一个子集，包含13,391例AD病例和133,910名匹配对照，涉及1644个可行Fisher精确检验的phecodes，我们在其上重复了富集分析。使用Bonferroni校正阈值3.04×10^-5（=0.05/1644）来确定关联的显著性。

多基因风险评分

我们用于评估富集表型与AD遗传学关系的遗传工具包括AD的风险变异和这些变异的聚合（作为多基因风险评分）。AD的多基因风险评分（PRS）使用APOE位点和83个独立信号构建，这些信号来自最大的AD和相关痴呆GWAS研究[16]。我们探索了欧洲后裔个体中的LD结构（使用

表型组关联研究（PheWAS）

使用PheWAS方法在BioVU和英国生物银行中对AD遗传工具变量的表型关联进行了系统性探究。在BioVU（n=54,000名欧洲血统个体）中，进行了PRS和排除APOE位点的PRS的PheWAS。通过逻辑回归实现，调整年龄、性别、三个祖先主成分以及阵列/批次，利用PheWAS包[24]。分析中仅包括至少有20个病例的phecodes。此外，还在BioVU中进行了APOE位点（rs429538_C）的PheWAS。总共84个AD风险变异的变异水平表型组关联（补充表S1）基于英国生物银行数据，使用Pheweb源（ ICD计费代码）在2800万个变异上的GWAS结果，这些变异通过TOPMed[25]在约40万名英国白人个体的英国生物银行中进行了基因分型和推断。二元结果的分析使用SAIGE[26]（一种考虑EHR数据典型病例-对照不平衡的关联测试方法），调整了遗传相关性、性别、出生年份和前4个主成分。

事件时间分析

为进一步探索EHR数据的纵向方面，我们在VUMC中进行了事件时间分析，通过为每种医疗状况运行Cox比例风险模型，以年龄和性别作为协变量。具体而言，我们设置了一个20年的观察窗口，从2000-01-01（基线）到2020-01-01（观察窗口结束），并根据以下标准提取个体的EHRs。纳入标准：基线时年龄为55岁或以上。排除标准：（i）首次AD诊断代码出现在基线之前；（ii）性别未知。对于每种医疗状况，如果该状况的首次诊断代码出现在基线之前，则定义"状况"=1，如果未收到此类诊断或代码出现在基线之后，则"状况"=0。我们将"time"定义为从基线到首次AD诊断代码或最后一次随访时间的持续时间，以先到者为准。如果个体在观察窗口内被诊断为AD，则定义"status"=1，否则为0。然后，我们为每种状况运行Cox回归，以性别和基线年龄作为协变量：

$$\mathrm{coxph}(\mathrm{Surv}(\mathrm{time},;\mathrm{status});\sim;;\mathrm{condition}+\mathrm{age}+\mathrm{sex})$$

R包"survival"中的coxph和survfit函数以及R包"survminer"中的ggsurvplot函数用于分析和可视化。

结果

研究队列特征

图1展示了工作流程和研究设计。利用MarketScan（MS）数据库（一个涵盖2003年至2013年1.5亿多人的商业性、基于索赔的国家EHRs存储库），我们识别出446,291名在55岁后记录有AD诊断代码的个体（约占人口的0.3%）。这些AD诊断的大多数（约90%）——近似于AD ICD代码的首次出现——发生在65岁之后。从这一群体中，我们选择了43,508名个体（56%为女性），他们在首次AD诊断前至少有10年的EHRs。然后将每个AD病例与4至10名在索引日期（即最后一次随访的日期）前至少有10年EHRs且没有AD诊断代码的年龄和性别相匹配的对照配对。总共，我们从MS数据库获得了43,508例AD病例和419,455名匹配对照（表1）。使用相同方法，我们从截至2020年1月约300万个体的VUMC去标识化EHRs中识别出1,320例AD病例和1,2720名年龄和性别匹配的对照（表1）。值得注意的是，两个数据库中观察到的AD病例比例一致（MS中为0.30%，VUMC中为0.27%），主要为女性（MS中为56%，VUMC中为62%），诊断年龄主要在75岁以上（MS中为84%，VUMC中为81%）（表1）。

图1

研究工作流程和匹配设计

表1 源人群和衍生的AD患者及对照队列特征

对于识别出的AD病例和对照，我们随后追溯了它们在索引日期前10年期间的EHRs。对于AD病例，索引日期对应于首次AD诊断日期；对于匹配的对照，相应的索引日期是达到与AD病例诊断时相同年龄的日期。我们比较了病例组和对照组记录中每种医疗状况的患病率，以确定在后来发展AD的人群中更常出现的状况。在两个EHR数据库中，我们使用phecodes（从ICD计费代码导出的二元表型）[15]来界定每个相应医疗表型的"病例"和"对照"状态。

MarketScan中的发现

在MarketScan数据库中，总共测试了1,722个phecodes与未来AD病例的关联，在经过Bonferroni校正后（显著性水平P=0.05/1722=2.90×10^-5），406个phecodes在未来的AD病例中与匹配对照相比显著富集。诸如高血压、高脂血症和2型糖尿病（T2D）等状况在后来发展AD的人群中更为普遍，与基于前瞻性队列的先前观察一致[6]。记忆丧失（OR=8.0，P<10^-321）和轻度认知障碍（OR=6.0，P<10^-321）——AD的两个典型临床表现——是最富集的表型之一。随后是其他痴呆类型，如"血管性痴呆"（OR=6.4，P<10^-321）和"伴有脑退化的痴呆"（OR=4.8，P<10^-321）。其他高度富集的表型包括一系列心理症状，如"偏执障碍"（OR=6.3，P<10^-321）、"精神病"（OR=4.6，P<10^-321）、"情绪障碍"（OR=3.4，P<10^-321）、"抑郁症"（OR=2.4，P<10^-321）和"短暂意识改变"（OR=2.3，P<10^-321）；神经系统疾病如"脑病"（OR=3.1，P<10^-321）、"脑退化"（OR=2.6，P<10^-321）、"帕金森病"（OR=2.6，p<10^-321）、"协调能力缺乏"（OR=2.0，P<10^-321）和"步态异常"（OR=1.9，p<10^-321）；以及循环系统问题如"脑缺血"（OR=2.4，P<10^-321）、"伴有脑梗死的脑动脉闭塞"（OR=1.9，P<10^-321）和"脑血管疾病"（OR=1.9，P=9.0×10^-172）（完整列表见补充表S2）。

由于每个表型可以归类于更广泛的临床领域（共17个类别，见补充表S2），我们随后调查了某些临床类别是否不成比例地贡献了与AD相关的表型富集。在将phecodes分配到各自的临床类别后，我们使用Bonferroni校正（显著性水平P=0.05/17=0.0029）评估了每个类别的富集情况，同时考虑每个类别的大小（例如，"循环系统"类别包含的表型数量是"精神障碍"类别的两倍，因此可能贡献更多的富集表型）。我们发现"精神障碍"是一个包含63个phecodes的临床类别，是最显著富集的之一，其中56个phecodes显示富集（56/63与总体比例406/1722相比，比例检验P=8.2×10^-34）。其他高度富集的临床类别包括"神经系统疾病"（49/69，P=3.1×10^-20）、"伤害与中毒"（60/87，P=3.5×10^-23）、"症状"（22/37，P=3.7×10^-7）和"循环系统"（53/128，P=1.7×10^-6）（补充表S3）。总的来说，这些临床类别占医疗表型的22%，但贡献了观察到的表型富集的59%（240/406）。

最后，我们报告了一份在AD前期EHRs中耗竭的166种表型列表，其中四分之一的表型来自"新生物"类别（补充表S4）。

VUMC中的复制

我们在VUMC数据库中进行了相同的分析。在检查的1,112个phecodes中，我们检测到102个显著富集的表型（Bonferroni校正阈值P=0.05/1112=4.5×10^-5）（见补充表S4）。与MarketScan的发现一致，"原发性高血压"（OR=1.8，P=1.2×10^-23）、"高脂血症"（OR=1.6，P=2.9×10^-18）和"2型糖尿病"（OR=1.3，P=1.3×10^-5）在列表上；"记忆丧失"（OR=13.3，P=1.3×10^-318）、"血管性痴呆"（OR=6.3，P=1.4×10^-44）、"抑郁症"（OR=3.3，P=5.0×10^-65）、"焦虑障碍"（OR=2.7，P=1.2×10^-35）、"偏执障碍"（OR=8.8，P=3.3×10^-25）、"脑退化"（OR=2.6，P=2.8×10^-13）和"脑缺血"（OR=2.1，P=1.6×10^-8）是最高度富集的表型。"精神障碍"（26/52与总体比例102/1112相比，比例检验P=1.1×10^-23）和"神经系统疾病"（12/50，P=0.0004）临床类别也作为具有不成比例和显著富集的顶级类别出现（补充表S3）。值得注意的是，显著耗竭的唯一表型在"新生物"类别中被发现（补充表S5）。

MarketScan和VUMC数据集中稳健富集的表型

我们编制了一份在MarketScan和VUMC EHR数据集中经过Bonferroni校正后均显著富集的73种表型列表（即MS中P<2.9×10^-5，VUMC中P<4.5×10^-5）（表2）。这些表型跨越九个临床类别，主要由两个类别代表："精神障碍"（27个phecodes）和"神经系统疾病"（12个phecodes）。具体而言，言语障碍（"失语/言语障碍"、"失语"、"言语和语言障碍"）在后来发展AD的人群中更为常见。诸如"偏执障碍"、"精神病"、"幻觉"和"自杀意念"等严重心理问题在AD诊断前的多年中也显著富集（所有OR>3）。与AD未来发展相关的神经系统表现包括"异常不自主运动"、"惊厥"（不自主肌肉收缩和放松）、"特发性震颤"以及睡眠障碍如"失眠"（睡眠不足）、"嗜睡"（睡眠过多）和睡眠相关呼吸问题（"睡眠呼吸暂停"和"阻塞性睡眠呼吸暂停"）。除了精神和神经系统疾病外，稳健富集的表型还包括7种"内分泌/代谢"表型，如"维生素B复合物缺乏"、"甲状腺功能减退"和"低钾血症"；6种"循环系统"疾病，包括"原发性高血压"、"脑动脉粥样硬化"和"脑缺血"；5种泌尿生殖系统疾病，包括"尿失禁"；4种肌肉骨骼疾病，如"骨关节炎"和"骨质疏松"；3种感觉器官问题，包括"心理物理视觉障碍"；以及3种消化系统问题，如"便血"和"直肠和肛门出血"。

表2 在两个EHR数据库中与AD后续发展显著相关的表型

部分富集表型与AD遗传学相关联

在确定了在两个独立的大规模EHR数据库中可靠检测到并在未来AD风险个体中富集的表型后，我们现在正在研究这些表型的遗传基础。与AD共享遗传易感性并在AD临床发作前出现的表型可能作为不可逆认知衰退前的早期生物标志物。我们从最新的AD和相关痴呆（ADRD）GWAS[16]中汇编了AD风险位点，并通过聚合独立的ADRD风险等位基因构建了一个工具变量，这些等位基因以其效应大小加权。得到的多基因风险评分PRSAD由78个独立信号组成，包括APOE位点（补充表S1）。使用来自BioVU（n=54,594）的欧洲血统基因型数据，我们计算了每个人的PRSAD，并在1,493个phecodes上进行了PheWAS分析。该分析显示了17个显著关联（Bonferroni校正P<0.05/1493=3.3×10^-5），包括5个与PRSAD呈负相关的表型。"阿尔茨海默病"（P=7.3×10^-42）、"记忆丧失"（P=2.5×10^-20）和"轻度认知障碍"（P=5.2×10^-15）与PRSAD呈正相关。"痴呆"（P=6.5×10^-50）及其亚型如"谵妄痴呆和遗忘及其他认知障碍"（P=3.1×10^-32）、"老年性痴呆"（P=1.6×10^-7）和"血管性痴呆"（P=2.0×10^-7）也是显著的正相关。其他正相关包括"脂质代谢障碍"（P=5.6×10^-8）、"高脂血症"（P=7.4×10^-8）、"高胆固醇血症"（P=1.1×10^-7）和"神经系统疾病"（P=1.5×10^-6）。专注于与PRSAD正相关的表型，我们确定了9种这样的表型，这些表型不仅在AD诊断前显示富集，而且在遗传学上与AD相关联（表3）。从PRSAD中排除APOE e4等位基因（即rs429358_C）并重复关联分析后，先前的显著关联均未保留其显著性（尽管观察到几个表型的名义显著性，如"阿尔茨海默病"（P=0.0009）、"痴呆"（P=0.0002）和"老年性痴呆"（P=0.005））（补充表S6）。这一发现表明，观察到的与PRSAD的表型关联主要归因于APOE位点。

表3 由AD遗传学支持的表型

除了PRSAD外，我们还使用更大的生物样本库（英国生物银行）评估了变异水平的表型关联，其中包含40万名基因分型的英国白人样本。我们探究了表型组关联，发现了82个显著关联（P<0.05/1400=3.6×10^-5），涉及17个AD风险位点（补充表S7）。APOE位点的AD风险等位基因（rs429358_C）与17种表型呈正相关，重现了与PRSAD关联中观察到的表型。这些包括"阿尔茨海默病"（P=4.3×10^-66）、"痴呆"（P=1.6×10^-91）、"血管性痴呆"（P=1.0×10^-17）、"高脂血症"（P=1.4×10^-68）、"脂质代谢障碍"（P=2.7×10^-68）和"高胆固醇血症"（P=3.2×10^-66）。除了精神和内分泌/代谢疾病外，APOE e4风险等位基因还与循环系统疾病风险增加相关，如"冠状动脉粥样硬化"（P=2.0×10^-22）、"缺血性心脏病"（P=3.6×10^-17）、"脑缺血"（P=3.2×10^-5）和"脑血管疾病"（P=2.9×10^-5）。"高血压"与SPI1位点（rs10437655_A）和MME位点（rs61762319_A）的另外两个AD风险等位基因相关。总计，有22种独特表型被稳健地与AD高风险相关联，并通过AD遗传学得到支持，无论是通过PRS还是单个风险等位基因，或两者兼有（表3）。

性别效应

鉴于女性比男性有更高的AD风险，我们好奇是否任何观察到的表型富集在某一性别中更为明显。为此，我们按性别对MS样本进行分层，并重新估计每种性别的富集情况。为确保公平比较，我们专注于一般表型，通过排除仅限男性和仅限女性的表型（涉及性器官的医疗状况）。总体而言，在两性中达到名义显著性的表型中（n=286），未检测到明显的性别效应：两性之间的富集估计值一致（回归线：男性=1.0334×女性+0.0243，OR自然对数的相关系数=0.893）（补充表S8，补充图S2）。这表明我们的匹配方法有效地减轻了潜在的性别偏差，得到的优势比估计反映了性别无关的富集。

敏感性分析

AD与其他痴呆的共存及其对富集估计的影响

众所周知，AD可能与其他痴呆类型同时出现[27-30]。我们确认了EHRs中AD和其他痴呆共存的现象。例如，在MarketScan中，约60%被诊断为AD的个体之前已被诊断为另一种类型的痴呆。为调查这种共存是否可能影响富集估计，我们在更大的MS数据库中进行了分析。具体而言，我们排除了有任何先前其他痴呆诊断（"痴呆"、"老年性痴呆"、"血管性痴呆"、"伴有脑退化的痴呆"、"谵妄痴呆和遗忘"以及其他认知障碍）的AD病例（n=20,153）（补充表S9）。排除这些AD病例后，也将其匹配的对照排除在分析之外（n=251,030）（补充表S9）。来自该数据子集的重新估计的优势比显示相关表型减少（经过Bonferroni校正，P<2.9×10^-5）（补充图S2A-B）。精神障碍显著减少到原始值的一半或更少，例如，"由其他分类条件引起的谵妄"（新OR=2.0 vs. 原始4.0）、"发育延迟和障碍"（OR=2.1 vs. 原始5.4）、"偏执障碍"（OR=3.5 vs. 原始7.4）、"精神病"（OR=2.6 vs. 原始5.1）、"行为障碍"（OR=3.1 vs. 原始7.4）和"自杀意念"（OR=2.3 vs. 原始4.6）。相比之下，AD的标志性表现的估计值变化不大："记忆丧失"（OR=9.1 vs. 原始9.5）和"轻度认知障碍"（OR=6.3 vs. 原始7.3）。这表明包含或排除伴有其他痴呆共病的AD病例，对AD特异性表现的估计影响不大，而受影响较大的心理症状对所有痴呆类型更为普遍。最后，我们注意到原始和子集数据集中的对照样本之间观察到的医疗状况患病率没有差异（补充图S2C），这让我们放心，观察到的估计衰减不是由于完整对照样本与子集对照样本的比较造成的。

事件时间分析

我们的富集分析发现了可能与AD发展相关的医疗状况，但缺乏这些状况与AD发作时间关系的分辨率。我们从VUMC获得了340,049名个体（女性53.4%）的队列，使用纳入/排除标准和20年观察窗口（方法）。我们进行了事件时间分析（方法），重点关注在AD发作前多年显示稳健富集的表型。在测试的73种状况中，我们确定了20种名义上相关（即P<0.05）的状况，所有危险比>1（补充表S11），包括焦虑、2型糖尿病和睡眠呼吸暂停。七种表型经受了严格的Bonferroni校正（补充表S11），包括高血压（P=5.7×10^-25）和高血压性心脏病（P=2.9×10^-8），这证实了血管因素对AD风险的贡献。生存图显示，某些基线状况与比其他更快进展到AD相关。例如，"高血压性心脏病"的危险比（HR=5.1）是"高血压"（HR=2.5）的两倍（补充图S3）。这些观察为富集医疗状况与AD发展相关的时间方面提供了额外信息。

讨论

EHR数据是一种快速扩展但未充分利用的资源，对AD研究具有巨大潜力。通过访问来自1.5亿多人的纵向EHRs，我们拥有足够的统计能力，可以系统地探究在后来发展AD的个体中更可能出现的医疗状况。通过比较晚年AD患者和年龄与性别匹配的对照在等效观察期内记录的医疗状况患病率，我们识别并验证了73种在MarketScan和VUMC数据库中AD诊断前富集的医疗表型。在这些表型中，精神障碍占总数的三分之一，神经系统疾病单独占六分之一，内分泌/代谢和循环系统疾病共占另外六分之一，其余三分之一由九个不同的临床类别代表。我们的遗传分析进一步揭示了这些表型中一小部分与AD遗传学的联系，显示了与特定AD风险变异或PRS的相关性。

我们的研究证实高血压和高胆固醇血症是晚年AD发展的风险因素。在没有痴呆治愈方法的情况下（目前FDA批准的AD淀粉样蛋白治疗针对的是早期/轻度阿尔茨海默病患者），风险降低和预防至关重要。通过采用更健康的生活方式或使用对大脑更健康的抗高血压或降脂药物来改变这些风险因素，可以有效地降低风险。正在进行的AD和相关痴呆的临床试验正在研究几种抗高血压药物（替米沙坦、氯沙坦、氨氯地平和培哚普利）和降脂药物（阿托伐他汀）[31]。这些临床试验的结果将提供关于这些药物对痴呆的保护作用的证据，并指导选择最合适的干预措施。

先前的研究注意到AD整体遗传学与神经精神疾病之间缺乏显著关联。一项对25种脑部疾病的遗传共享研究表明，AD与精神疾病（如焦虑和重度抑郁症）以及神经退行性疾病（如帕金森病）之间的遗传相关性极其有限[32]。在一项涉及71,880名临床诊断AD病例和替代者以及383,378名对照的AD GWAS中，AD与抑郁症之间的遗传相关性 barely reached significance[33]。尽管AD与精神疾病在全球范围内遗传共享有限，但在单个遗传位点上，一些确实被发现是AD和精神障碍共享的[34,35]。最近一项研究[36]的局部遗传相关性分析进一步揭示了四个GWAS位点（如chr7上的TMEM106B位点或rs13237518），这些位点在抑郁症和AD之间共享，五个位点在精神分裂症和AD之间共享，两个位点在双相情感障碍和AD之间共享。因此，在抑郁症、双相情感障碍或精神分裂症患者中，携带AD致病变异的个体可能比其他人更容易发展AD。

一个有趣的观察是，新生物在两个EHR数据集中都持续表现为耗竭表型。这一观察与最近报道的癌症诊断和阿尔茨海默病之间的逆向关系一致，这一趋势得到了越来越多的证据支持[37-41]。有人假设，与年龄相关的代谢和能量平衡变化可能同时增加AD风险并降低癌症风险，或反之亦然[38,42,43]；然而，确切的潜在机制仍然难以捉摸。情况因认知障碍（通常称为"脑雾"）被报告为与癌症治疗相关的不良反应而变得更加复杂[44]。

本研究有几个局限性。EHRs中记录的AD首次诊断代码的使用可能无法准确捕捉AD的实际发病日期，因为AD的实际出现可能更早。不过，我们在两个EHR数据集中观察到，80%的AD患者在75岁或以上首次收到AD诊断代码，这与晚发性AD的典型年龄分布一致。其次，我们仅使用诊断代码（ICD）来识别AD的病例/对照状态，这可能导致AD病例检测不足。整合药物和临床记录可能提高AD病例的检测[45]。在两个EHR数据集中，确定的AD患者约占总人口的0.30%，这一数字低于AD病例的国家患病率，后者约为2%（截至2023年，美国约有3.35亿总人口中约有670万美国人患有AD）。AD病例检测不足可能导致"未识别AD病例"包含在对照组中，导致AD与对照之间富集估计的保守衰减。因此，当前的富集表型列表可能仍然稳健，甚至可能更加明显。

结论

总之，我们对包含1.53亿个体的两个独立大规模EHR数据库的系统探究表明，利用日益增长的纵向EHRs资源来大幅扩展与后续AD发展相关的健康状况列表是可行的。通过追踪和比较AD诊断前等效观察期内记录的医疗状况，我们发现并复制了70多种在后来收到AD诊断的人群中比其年龄和性别匹配的对照更可能发生的医疗表型。我们的发现表明，相关表型主要由神经心理、循环和内分泌/代谢疾病组成。此外，约四分之一的表型显示出与AD遗传学的共享。总之，我们的发现突显了通过治疗和干预降低AD风险的潜在机会。