英国国家医疗服务体系(NHS)是英国的公共资助医疗系统,其主要目标是在使用时为居民提供免费医疗服务。然而,NHS也在开展一项非常雄心勃勃的研究项目。
在一个安全的数据服务器中,一个强大的新人工智能模型一直在悄悄地学习几乎所有人的生活。这个名为“Foresight”的模型已经处理了100亿条医疗历史片段——从医院就诊和COVID-19疫苗接种到死亡——所有这些数据都来自5700万人的匿名记录。
它的目标是预测未来的疾病,预见住院情况,并指导从被动治疗到主动预防的全面转变。
“这是第一次在健康研究中使用涉及5700万人的人工智能模型,”剑桥大学的健康数据科学家安吉拉·伍德在一次新闻发布会上说。“这是一个真正的进步。”
Foresight能看到什么?
Foresight基于与ChatGPT相同的原则,使用大型语言模型来学习模式——但不是完成句子,而是完成健康轨迹。
最初在2023年使用GPT-3和仅150万份来自伦敦的NHS记录开发,Foresight的范围和复杂性已经大幅增长。其最新版本基于Meta的开源LLaMA 2模型,并在涵盖五年健康事件的八个国家级数据集上进行训练。
伦敦大学学院的健康数据科学家克里斯·汤姆林森博士是该模型的创建者之一,他称其为“世界上第一个全国规模的健康数据生成式人工智能模型”。他在启动活动上强调了其变革潜力:“Foresight的真正潜力在于在疾病并发症发生之前进行预测,为我们提供了一个宝贵的窗口,可以及早干预,并实现大规模的预防性医疗。”
例如,他说,未来有一天,临床医生可能会利用该模型预测患者非计划住院的风险(这通常是严重恶化的前兆),并在恶化开始之前采取行动。这些行动可能包括调整药物或根据数据中的微妙模式进行有针对性的干预。
目前的试点研究将Foresight的使用限制在与COVID-19相关的研究中。即使在这个狭窄的范围内,研究人员也在不断突破界限。目前,该模型正在进行测试。研究人员希望看看该模型能否使用2018年至2022年的过往健康记录来预测超过1000种疾病。
“这使我们能够尽可能接近事实真相,”汤姆林森解释道。
隐私、权力和公众
Foresight的规模既是其优势也是其最大的责任。它可以从大量人那里访问大量数据。
研究人员已经对用于训练的所有数据进行了“去标识化”,移除了姓名、出生日期和地址。然而,专家警告说,在这种规模下,匿名性永远无法得到保证。
“构建保护患者隐私的强大生成式人工智能模型是一个开放且尚未解决的科学问题,”牛津大学的数据隐私研究员吕克·罗彻告诉《新科学家》杂志。“正是这些数据的丰富性使其对人工智能有价值,也使其难以匿名化。这些模型应严格由NHS控制,以便安全使用。”
患者不能完全选择退出。那些拒绝分享其全科医生记录的人将被排除在外。然而,其他数据来源——如医院就诊记录、疫苗接种记录、国家登记册——不受选择退出的覆盖。一旦像Foresight这样的模型经过训练,就不可能从模型的记忆中删除个人记录。
NHS英格兰的数据访问主管迈克尔·查普曼承认了这一担忧。“对于丰富的健康数据来说,很难百分之百确定某人不会在该数据集中被发现,”他说。尽管如此,人工智能被限制在一个安全环境中,并由NHS研究人员监督。即使是像亚马逊网络服务和Databricks这样的云提供商,虽然提供了计算基础设施,也无法访问数据。
甚至Foresight的法律地位也是一个灰色地带。根据英国对GDPR的解释,匿名数据不在其覆盖范围内。但信息专员办公室警告不要将“去标识化”数据与真正匿名数据混淆。
AI与社会的微观缩影
这个案例研究正是AI与社会互动的一个例子。
如果Foresight的表现如其开发者所希望的那样,它可能会成为管理国家卫生系统的转折点。它可以帮助临床医生以前所未有的精确度个性化护理,并帮助处于危机边缘的患者。但它也使大量私人数据面临风险,而且我们还不完全确定它是否会如预期那样表现。
“这项技术正在改变我们在诊断、治疗和预防一系列使人衰弱的疾病方面的能力,”凯尔在接受《独立报》采访时说。
但这项工作仍处于早期阶段。Foresight尚未对患者进行实时预测。研究人员仍在测试其在不同人口统计学和疾病类型上的准确性。其避免隐私泄露的能力尚未得到证实。
然而,Foresight的长期成功可能更多地取决于公众的信任。如果人们认为他们的数据未经同意就被使用,该项目可能会失去其依赖的社会许可。在利用人工智能进行医学创新的竞赛中,能否将创新的紧迫性与伦理和问责制的要求相协调?
这是一个我们还没有任何Foresight的问题。
(全文结束)

