自身免疫疾病是指免疫系统错误攻击人体自身健康细胞和组织的疾病,通常在诊断前存在临床前期,表现为轻微症状或血液中存在特定抗体。然而,部分患者的这些症状可能在发展为完全疾病阶段前自行消退。
宾夕法尼亚州立大学医学院研究团队开发了一种新方法,可预测具有临床前期症状的自身免疫疾病患者的病情进展。该团队指出,准确识别可能沿疾病路径发展的个体对早期诊断干预、改善治疗和优化疾病管理至关重要。研究团队利用人工智能(AI)分析了自身免疫疾病患者的电子健康记录和大型遗传研究数据,从而创建出风险预测评分。与现有模型相比,该方法在判断症状是否会发展为晚期疾病时,准确性提高了25%至1000%。
研究团队本周(1月2日)在《自然通讯》期刊上发表了这一发现。
宾夕法尼亚州立大学医学院杰出教授、研究副主任兼人工智能与生物医学信息学主任、该研究共同主要作者刘大江(Dajiang Liu)表示:“通过聚焦更相关的人群——有家族史或出现早期症状者,我们可以利用机器学习识别疾病风险最高的患者,并确定可能延缓疾病进展的合适疗法。这提供了更具意义且可操作的信息。”
据美国国立卫生研究院统计,约8%的美国人患有自身免疫疾病,且绝大多数为女性。刘大江指出,越早检测并干预疾病越好,因为一旦自身免疫疾病进展,造成的损伤可能不可逆转。在个体获得诊断前,疾病往往已有征兆。例如,研究人员解释称,类风湿关节炎患者在症状出现前五年,血液中即可检测到抗体。
预测疾病进展的挑战在于样本量。特定自身免疫疾病患者群体相对较小,可用数据越少,开发准确模型和算法就越困难,刘大江说。为提高预测准确性,研究团队开发了一种名为遗传进展评分(GPS)的新方法,用于预测从临床前期到疾病阶段的进展。宾夕法尼亚州立大学医学院公共卫生科学助理教授、该研究主要作者江碧波(Bibo Jiang)解释道,GPS借鉴了迁移学习的理念——这是一种机器学习技术,模型在一个任务或数据集上训练后,再微调用于不同但相关的任务或数据集。它使研究人员能从小规模数据样本中获取更优信息。
例如,在医学影像领域,人工智能模型可训练用于区分肿瘤是否为恶性。创建训练数据集时,医学专家需逐一标注图像,耗时且受限于可用图像数量。刘大江表示,迁移学习则利用更丰富、更易标注的图像(如猫狗图片)构建更大规模数据集,任务也可外包。模型先学习区分动物,再经微调用于区分良恶性肿瘤。“你无需从头训练模型,”刘大江说,“模型分割图像元素以判断猫狗的方式具有可迁移性。稍作调整后,即可微调模型区分肿瘤图像与正常组织图像。”
GPS在大型病例对照全基因组关联研究(GWAS)数据上进行训练。GWAS是人类遗传学研究中识别特定自身免疫疾病患者与健康人群基因差异、检测潜在风险因素的常用方法。GPS还整合了基于电子健康记录的生物样本库数据,这些样本库包含患者遗传变异、实验室检测和临床诊断等丰富信息,有助于识别临床前期个体并刻画从临床前期到疾病阶段的进展过程。来自两个来源的数据随后被整合以优化GPS模型,纳入与疾病实际发展相关的因素。
刘大江解释道:“整合大型病例对照研究和生物样本库,借鉴了病例对照研究的大样本优势,提高了预测准确性。GPS评分高的人群,从临床前期发展为疾病阶段的风险更高。”
团队利用范德堡大学生物样本库的真实数据,预测类风湿关节炎和红斑狼疮的进展,并通过美国国立卫生研究院健康数据倡议项目“All of Us”生物样本库数据验证GPS风险评分。相比仅依赖生物样本库或病例对照样本的其他20种模型,以及通过其他方法结合两类样本的模型,GPS对疾病进展的预测更为精准。
刘大江表示,利用GPS精准预测疾病进展可实现早期干预、靶向监测和个性化治疗决策,从而改善患者预后。它还能通过识别最可能从新疗法中受益的个体,优化临床试验设计和招募。尽管本研究聚焦自身免疫疾病,但研究者指出,类似框架可用于研究其他疾病类型。
刘大江说:“谈及代表性不足的人群时,不仅涉及种族问题。它也可能指医学文献中研究不足的患者群体,因其仅占典型数据集的一小部分。人工智能和迁移学习能帮助我们研究这些群体,减少健康差异。这项工作体现了宾夕法尼亚州立大学自身免疫疾病综合研究计划的实力。”
刘大江和江碧波——连同研究共同作者、生物化学与分子生物学教授劳拉·卡雷尔(Laura Carrel)、皮肤病学副教授加伦·富尔克(Galen Foulke)、风湿病学希·托马斯和多萝西·威利茨·哈洛韦尔讲席教授南希·奥尔森(Nancy Olsen)——组成了自身免疫工作组,已合作近十年。他们主导创新临床试验,开展研究以理解自身免疫疾病的生物机制,并开发人工智能方法解决相关问题。
陈王(Chen Wang,宾夕法尼亚州立大学生物信息学与基因组学博士)和哈维尔·马库斯(Havell Markus,医学科学家培训项目MD/PhD联合学位学生)是该研究的共同第一作者。其他宾夕法尼亚州立大学作者包括:研究生阿凡提卡·R·迪瓦达卡尔(Avantika R. Diwadkar);研究期间毕业于医学科学家培训项目的查克里特·坤斯里拉克萨库尔(Chachrit Khunsriraksakul);以及研究期间任宾夕法尼亚州立大学医学院研究助理的王星岩(Xingyan Wang)。
其他贡献者包括范德堡大学医学院分子生理学与生物物理学教授李冰山(Bingshan Li)和遗传医学研究助理教授钟雪(Xue Zhong);以及德克萨斯大学西南医学中心公共卫生副教授詹晓威(Xiaowei Zhan)。
美国国立卫生研究院(包括国家过敏与传染病研究所数据科学与新兴技术办公室)为本研究提供了资金支持。
【全文结束】

