新型AI工具可预测20年内可能患上的1000种疾病
一款大型语言模型Delphi-2M通过分析个人医疗记录和生活方式,提供针对1000多种疾病的患病风险估计
作者:Gemma Conroy(《自然》杂志)
一款新型人工智能(AI)工具能够预测一个人罹患1000多种疾病的风险,在某些情况下甚至能提前数十年做出预测。
这款名为Delphi-2M的模型利用健康记录和生活方式因素,来估算一个人在20年内罹患癌症、皮肤病和免疫系统疾病等疾病的概率。尽管Delphi-2M仅基于英国的一个数据集进行训练,但其多疾病建模能力有朝一日可以帮助临床医生识别高风险人群,从而及早实施预防措施。该模型在今天发表于《自然》杂志的一项研究中进行了描述。
德国慕尼黑路德维希-马克西米利安大学(Ludwig Maximilian University of Munich)的计算机科学家Stefan Feuerriegel表示,该工具一次性建模多种疾病的能力"令人惊叹"。他曾开发过医疗应用的AI模型。他说:"它可以生成完整的未来健康轨迹。"
健康预言家
研究人员已经开发出基于AI的工具来预测一个人罹患某些疾病(包括某些癌症和心血管疾病)的风险。但该研究的合著者、海德堡德国癌症研究中心(German Cancer Research Center)的数据科学家Moritz Gerstung表示,大多数这些工具只能估计单一疾病的风险。他说:"医疗专业人员需要运行数十种这样的工具才能提供全面的答案。"
为解决这一问题,Gerstung和他的同事修改了一种称为生成式预训练变换器(generative pre-trained transformer, GPT)的大语言模型(LLM),该模型是ChatGPT等AI聊天机器人的基础。当被提问时,GPT会根据其对海量数据的训练,提供统计上可能的输出。
作者们设计了这种修改后的大语言模型,以基于个人过去的医疗历史预测其罹患1,258种疾病的概率。该模型还纳入了个人的年龄、性别、体重指数以及与健康相关的习惯,如烟草使用和酒精消费。研究人员使用来自英国生物银行(UK Biobank)40万名参与者的数据训练了Delphi-2M,这是一个长期的生物医学监测研究。
对于大多数疾病,Delphi-2M的预测匹配或超过了当前估计单一疾病风险模型的准确性。该工具的表现也优于使用生物标志物——体内特定分子或化合物的水平——来预测多种疾病风险的机器学习算法。Gerstung表示:"它的表现非常出色。"
当预测遵循可预测进展模式的疾病(如某些类型的癌症)的轨迹时,Delphi-2M表现最佳。该模型计算了一个人在长达二十年的时间内罹患每种疾病的概率,具体取决于其医疗记录中包含的信息。
早期预警系统
Gerstung和他的同事在丹麦国家患者登记册(Danish National Patient Registry)的190万人的健康数据上测试了Delphi-2M,这是一个追踪医院入院记录近半个世纪的国家数据库。作者发现,该模型对登记册中人群的预测准确性仅略低于对英国生物银行参与者的预测。Gerstung表示,这表明当该模型应用于其训练所用以外的国家卫生系统的数据集时,仍能做出相当可靠的预测。
休斯顿德克萨斯大学健康科学中心(University of Texas Health Science Center at Houston)开发AI模型的生物信息学研究员Degui Zhi表示,Delphi-2M是对快速发展的"一次性建模多种疾病"领域的一项"引人入胜"的贡献,但它也有其局限性。例如,英国生物银行的数据仅捕捉了参与者初次患病的情况。Zhi说,某人患病的次数"对个人健康轨迹建模非常重要"。
Gerstung和他的同事将在来自多个国家的数据集上评估Delphi-2M的准确性,以扩大其适用范围。他说:"思考如何结合这些信息来开发更精确的算法将非常重要。"
本文经许可转载,首次发表于2025年9月17日。
【全文结束】