科学家来自欧洲分子生物学实验室(EMBL)和德国癌症研究中心(DKFZ)开发了一种人工智能模型,该模型可评估1000多种疾病的长期个体风险。该模型使用英国和丹麦的匿名医疗数据进行训练和测试,可预测超过十年的健康事件。这项发表在《自然》杂志上的模型目前尚未准备好用于临床,但它已经为制定健康策略开辟了新的可能性。
您的个人医疗史能否用于预测未来二十年可能面临的健康问题?来自EMBL、DKFZ和哥本哈根大学的研究人员现已证明这是可能的。他们开发了一种生成式AI模型,利用大规模健康记录来估算人类健康随时间的变化。它可以预测1000多种疾病的风险和时间,并提前十年预测健康结果。
这个新的生成式AI模型是使用与大型语言模型(LLMs)类似的算法概念定制构建的。它在来自英国生物银行(UK Biobank)的40万名参与者的匿名患者数据上进行了训练。研究人员还使用丹麦国家患者登记处(Danish National Patient Registry)的190万患者数据成功测试了该模型。这种方法是迄今为止最全面的演示之一,展示了生成式AI如何大规模建模人类疾病进展,并在两个完全独立的医疗系统数据上进行了测试。
“我们的AI模型是一个概念验证,表明学习许多我们的长期健康模式并利用这些信息生成有意义的预测是可能的,”EMBL的伊万·伯尼(Ewan Birney)说。“通过建模疾病如何随时间发展,我们可以开始探索某些风险何时出现以及如何最好地规划早期干预。这是迈向更个性化和预防性医疗保健方法的一大步。”
健康数据的“语法”
“正如大型语言模型可以学习句子的结构,这个AI模型学习健康数据的'语法',将医疗史建模为随时间展开的事件序列,”DKFZ的莫里茨·格斯特隆(Moritz Gerstung)解释道。这些事件包括医疗诊断或吸烟等生活方式因素。该模型学习从这些事件发生的顺序以及事件之间经过的时间来预测疾病风险。
“医疗事件通常遵循可预测的模式,”欧洲生物信息学研究所(EMBL-EBI)的汤姆·菲茨杰拉德(Tom Fitzgerald)说。“我们的AI模型学习这些模式并可以预测未来的健康结果。它为我们提供了一种基于个人医疗史和其他关键因素探索可能发生情况的方法。关键的是,这不是确定性,而是潜在风险的估计。”
该模型适用于各种疾病,特别是那些具有清晰和一致进展模式的疾病,如糖尿病、心脏病发作或败血症,即一种血液中毒。然而,对于依赖不可预测生活事件的诊断,如传染病,或非常罕见的疾病,它的可靠性较低。
概率,而非确定性
与天气预报类似,这个新的AI模型提供概率,而非确定性。它不会精确预测个人将发生什么,而是提供在给定时期内某些状况可能发生可能性的良好校准估计。例如,明年患心脏病的几率。这些风险以随时间变化的比率表示,类似于预测明天有70%的降雨概率。
一些结果,如重大事件——例如心脏病发作——后住院的风险,可以高置信度预测,而其他结果则更为不确定。同样,短期预测的准确性高于长期预测。
以心脏病发作为例
AI模型计算的60至65岁男性心脏病发作风险在每年每10,000人4例到约100例之间变化,具体取决于先前诊断和男性的生活方式。女性心脏病发作的平均风险较低,但范围同样广泛。
此外,男性和女性的心脏病发作风险都随年龄增长而增加。对不同年龄和性别组中这些计算风险的系统评估表明,它们与英国生物银行队列子集中观察到的病例数相符,该子集未用于训练模型。
该模型经过校准,可生成准确的人群水平风险估计,预测特定状况在人群组中发生的频率。然而,像任何AI模型一样,它也有局限性。例如,由于模型在英国生物银行上的训练数据主要来自40-60岁个体,这意味着儿童和青少年健康事件的代表性不足。该模型还包含由于训练数据中的差距而产生的种群偏差,包括某些种族群体的代表性不足。
虽然该模型尚未准备好用于临床,但它已经可以帮助研究人员:
- 了解疾病如何随时间发展和进展
- 探索生活方式和既往疾病如何影响长期疾病风险
- 在现实世界数据难以获取或访问的情况下,使用人工患者数据模拟健康结果
未来,诸如此处描述的在更具代表性数据集上训练的AI工具可以帮助临床医生及早识别高风险患者。随着人口老龄化和慢性病发病率上升,能够预测未来健康需求可以帮助医疗系统更好地规划并更有效地分配资源。但在AI模型可以在临床环境中部署之前,还需要进行更多测试、咨询和健全的监管框架。
“这是我们理解人类健康和疾病进展的新方式的开始,”DKFZ的莫里茨·格斯特隆说。“我们的生成式模型有朝一日可以帮助大规模个性化护理和预见医疗保健需求。通过从大人群中学习,这些模型为疾病如何展开提供了强大的视角,并最终可能支持更早、更量身定制的干预。”
该AI模型在严格的道德规则下使用匿名健康数据进行训练。英国生物银行参与者提供了知情同意,丹麦数据的访问符合要求数据保留在丹麦的国家规定。研究人员使用安全的虚拟系统分析数据,而无需将数据跨境传输。这些保障措施有助于确保以尊重隐私和维护道德标准的方式开发和使用AI模型。
这项工作由EMBL成员国的贡献、DKFZ资金和诺和诺德基金会(Novo Nordisk Foundation)资助。
出版:
Artem Shmatko、Alexander Wolfgang Jung、Kumar Gaurav、Søren Brunak、Laust Mortensen、Ewan Birney、Tom Fitzgerald与Moritz Gerstung:
利用生成式变换器学习人类疾病的自然史
《自然》2025
【全文结束】