自身免疫疾病中,免疫系统错误地攻击身体自身的健康细胞和组织,在诊断前通常有一个临床前期阶段,这一阶段的特征是轻度症状或血液中存在某些抗体。然而,在一些人中,这些症状可能在发展到完全的疾病阶段之前自行缓解。
了解哪些人可能会沿着疾病路径进展对于早期诊断和干预、改进治疗和更好的疾病管理至关重要。宾夕法尼亚州立大学医学院的研究团队开发了一种新的方法,用于预测具有临床前期症状的人群中自身免疫疾病的发展。该团队利用人工智能(AI)分析来自电子健康记录和大规模基因研究的数据,得出了一个风险预测评分。与现有模型相比,这种方法在确定症状是否会发展为晚期疾病方面准确性提高了25%到1000%。
该研究团队于1月2日在《自然通讯》杂志上发表了他们的研究成果。
“通过针对更具相关性的人群——有家族史或正在经历早期症状的人,我们可以使用机器学习来识别高风险患者,并找到合适的治疗方法,以减缓疾病的发展。这是一种更有意义和可操作的信息。”宾夕法尼亚州立大学医学院杰出教授、研究副主席兼人工智能和生物医学信息学主任刘大江(Dajiang Liu)表示,他是该研究的共同负责人之一。
根据美国国立卫生研究院的数据,大约8%的美国人患有自身免疫疾病,其中绝大多数是女性。刘大江指出,越早发现和干预疾病越好,因为一旦自身免疫疾病发展,损害可能是不可逆的。在个人确诊之前,通常会有疾病的迹象。例如,研究人员解释说,在类风湿关节炎患者中,可以在症状开始前五年检测到血液中的抗体。
预测疾病进展的挑战在于样本量。特定自身免疫疾病的人口相对较小,可用的数据较少,因此难以开发出准确的模型和算法,刘大江说。
为了提高预测准确性,研究团队开发了一种名为遗传进展评分(Genetic Progression Score, GPS)的新方法,用于预测从临床前期到疾病阶段的进展。GPS借鉴了迁移学习的思想——一种机器学习技术,即在一个任务或数据集上训练模型,然后微调其应用于不同的但相关的任务或数据集,宾夕法尼亚州立大学医学院公共卫生科学助理教授姜必波(Bibo Jiang)解释说。这使得研究人员可以从较小的数据样本中获得更好的信息。
例如,在医学影像中,人工智能模型可以训练判断肿瘤是有害还是无害。创建训练数据集时,医学专家需要逐一标记图像,这可能耗时且受限于可用图像的数量。刘大江说,相反,迁移学习使用更多数量、更容易标记的图像,如猫和狗,并创建更大的数据集。该任务也可以外包。模型学会区分动物,然后可以微调以区分恶性肿瘤和良性肿瘤。
“你不需要从头开始训练模型。”刘大江说。“模型从图像中分割元素以判断它是猫还是狗的方式是可以转移的。经过一些调整,你可以微调模型以分离肿瘤图像和正常组织图像。”
GPS在大型病例对照全基因组关联研究(GWAS)数据上进行训练,这是一种流行的人类遗传学研究方法,旨在识别患有特定自身免疫疾病的人与未患病者之间的基因差异,并检测潜在的风险因素。它还结合了基于电子健康记录的生物银行数据,这些数据包含了患者的丰富信息,包括基因变异、实验室测试和临床诊断。这些数据可以帮助识别处于临床前期的个体,并描述从临床前期到疾病阶段的进展过程。然后整合两个来源的数据,纳入与实际疾病发展相关的因素,以优化GPS模型。
“整合大型病例对照研究和生物银行的优势在于,前者提供了较大的样本量,从而提高了预测准确性。”刘大江解释说,GPS评分较高的人群从临床前期发展到疾病阶段的风险更高。
该团队使用范德堡大学生物银行的真实世界数据预测了类风湿关节炎和狼疮的进展,并使用国家卫生研究院的“我们所有人”生物银行数据验证了GPS风险评分。与仅依赖生物银行或病例对照样本的20个其他模型,以及通过其他方法结合生物银行和病例对照样本的模型相比,GPS更好地预测了疾病进展。
使用GPS准确预测疾病进展可以实现早期干预、有针对性的监测和个人化治疗决策,从而改善患者预后,刘大江说。它还可以通过识别最有可能从新疗法中受益的个体,改进临床试验设计和招募。虽然这项研究集中在自身免疫疾病上,但研究人员表示,类似的框架可用于研究其他类型的疾病。
“当我们谈论代表性不足的人群时,不仅是指种族。这也可能是指在医学文献中研究不足的患者群体,因为他们只占典型数据集的一小部分。人工智能和迁移学习可以帮助我们研究这些人群,帮助减少健康差距。”刘大江说。“这项工作反映了宾夕法尼亚州立大学在自身免疫疾病综合研究项目中的实力。”
刘大江和姜必波——连同论文的合著者劳拉·卡雷尔(Laura Carrel)、加伦·福尔克(Galen Foulke)、南希·奥尔森(Nancy Olsen),组成了自身免疫工作组,并合作了近十年。他们领导创新性的临床试验,进行研究以了解自身免疫疾病的生物学机制,并开发人工智能方法解决与自身免疫疾病相关的问题。
王晨(Chen Wang),宾夕法尼亚州立大学生物信息学和基因组学博士,和哈维尔·马库斯(Havell Markus),MD/PhD医学科学家培训项目的联合学位学生,是该研究的共同第一作者。其他宾夕法尼亚州立大学的作者还包括:阿万提卡·迪瓦德卡尔(Avantika R. Diwadkar),研究生;查奇里特·坤西里拉克斯库尔(Chachrit Khunsriraksakul),在研究期间从MD/PhD医学科学家培训项目毕业;王星妍(Xingyan Wang),在研究期间是宾夕法尼亚州立大学医学院的研究助理。
其他贡献者包括:范德堡大学医学院分子生理学和生物物理学教授李冰山(Bingshan Li),遗传医学研究助理教授钟雪(Xue Zhong);德克萨斯大学西南医学中心公共卫生副教授詹晓伟(Xiaowei Zhan)。
该研究得到了美国国立卫生研究院的资金支持,包括国家过敏和传染病研究所数据科学和新兴技术办公室的支持。
(全文结束)

