AI模型可提前数十年预测疾病风险 - AI与医疗健康

AI模型可提前数十年预测疾病风险AI model predicts disease risks decades in advance - German Cancer Research Center

环球医讯 / AI与医疗健康来源：www.dkfz.de德国 - 英语2025-09-21 01:48:38 - 阅读时长5分钟 - 2305字

欧洲分子生物学实验室和德国癌症研究中心的研究人员成功开发出一种生成式人工智能模型，该模型能够基于个人医疗历史数据预测1000多种疾病在未来十年以上的发病风险与时间点。通过使用英国生物银行40万参与者和丹麦国家患者登记处190万患者的匿名医疗数据进行训练验证，该模型揭示了疾病发展的潜在模式，为个性化预防医疗提供了科学依据，但目前仍处于概念验证阶段，存在训练数据年龄局限（40-60岁为主）和种族代表性不足等缺陷，距离临床应用尚需更多测试、监管框架完善及数据多样性提升，有望在未来帮助医疗系统提前规划资源应对人口老龄化和慢性病挑战。（158字）

科学家来自欧洲分子生物学实验室(EMBL)和德国癌症研究中心(DKFZ)开发了一种人工智能模型，该模型可评估1000多种疾病的长期个体风险。该模型使用英国和丹麦的匿名医疗数据进行训练和测试，可预测超过十年的健康事件。这项发表在《自然》杂志上的模型目前尚未准备好用于临床，但它已经为制定健康策略开辟了新的可能性。

您的个人医疗史能否用于预测未来二十年可能面临的健康问题？来自EMBL、DKFZ和哥本哈根大学的研究人员现已证明这是可能的。他们开发了一种生成式AI模型，利用大规模健康记录来估算人类健康随时间的变化。它可以预测1000多种疾病的风险和时间，并提前十年预测健康结果。

这个新的生成式AI模型是使用与大型语言模型(LLMs)类似的算法概念定制构建的。它在来自英国生物银行(UK Biobank)的40万名参与者的匿名患者数据上进行了训练。研究人员还使用丹麦国家患者登记处(Danish National Patient Registry)的190万患者数据成功测试了该模型。这种方法是迄今为止最全面的演示之一，展示了生成式AI如何大规模建模人类疾病进展，并在两个完全独立的医疗系统数据上进行了测试。

“我们的AI模型是一个概念验证，表明学习许多我们的长期健康模式并利用这些信息生成有意义的预测是可能的，”EMBL的伊万·伯尼(Ewan Birney)说。“通过建模疾病如何随时间发展，我们可以开始探索某些风险何时出现以及如何最好地规划早期干预。这是迈向更个性化和预防性医疗保健方法的一大步。”

健康数据的“语法”

“正如大型语言模型可以学习句子的结构，这个AI模型学习健康数据的'语法'，将医疗史建模为随时间展开的事件序列，”DKFZ的莫里茨·格斯特隆(Moritz Gerstung)解释道。这些事件包括医疗诊断或吸烟等生活方式因素。该模型学习从这些事件发生的顺序以及事件之间经过的时间来预测疾病风险。

“医疗事件通常遵循可预测的模式，”欧洲生物信息学研究所(EMBL-EBI)的汤姆·菲茨杰拉德(Tom Fitzgerald)说。“我们的AI模型学习这些模式并可以预测未来的健康结果。它为我们提供了一种基于个人医疗史和其他关键因素探索可能发生情况的方法。关键的是，这不是确定性，而是潜在风险的估计。”

该模型适用于各种疾病，特别是那些具有清晰和一致进展模式的疾病，如糖尿病、心脏病发作或败血症，即一种血液中毒。然而，对于依赖不可预测生活事件的诊断，如传染病，或非常罕见的疾病，它的可靠性较低。

概率，而非确定性

与天气预报类似，这个新的AI模型提供概率，而非确定性。它不会精确预测个人将发生什么，而是提供在给定时期内某些状况可能发生可能性的良好校准估计。例如，明年患心脏病的几率。这些风险以随时间变化的比率表示，类似于预测明天有70%的降雨概率。

一些结果，如重大事件——例如心脏病发作——后住院的风险，可以高置信度预测，而其他结果则更为不确定。同样，短期预测的准确性高于长期预测。

以心脏病发作为例

AI模型计算的60至65岁男性心脏病发作风险在每年每10,000人4例到约100例之间变化，具体取决于先前诊断和男性的生活方式。女性心脏病发作的平均风险较低，但范围同样广泛。

此外，男性和女性的心脏病发作风险都随年龄增长而增加。对不同年龄和性别组中这些计算风险的系统评估表明，它们与英国生物银行队列子集中观察到的病例数相符，该子集未用于训练模型。

该模型经过校准，可生成准确的人群水平风险估计，预测特定状况在人群组中发生的频率。然而，像任何AI模型一样，它也有局限性。例如，由于模型在英国生物银行上的训练数据主要来自40-60岁个体，这意味着儿童和青少年健康事件的代表性不足。该模型还包含由于训练数据中的差距而产生的种群偏差，包括某些种族群体的代表性不足。

虽然该模型尚未准备好用于临床，但它已经可以帮助研究人员：