国内健康环球医讯科学探索医药资讯

NHS健康数据用于AI模型训练引发隐私担忧

NHS Health Data Used for AI Model Training, Causing Privacy Concerns

英国英语科技与健康
新闻源:WinBuzzer
2025-05-12 19:00:00阅读时长6分钟2523字
NHS健康数据AI模型Foresight健康预测预防性医疗隐私担忧数据保护医疗保健变革医学AI发展公众支持数据质量

内容摘要

一个名为Foresight的人工智能模型利用了5700万份英格兰国民健康服务(NHS)记录进行训练,引发了关于隐私和数据保护的广泛讨论。开发者声称该模型可以预测疾病并发症并提供早期干预的机会,但批评者担心重新识别的风险以及缺乏明确的患者退出机制。

一个名为Foresight的人工智能模型已经利用了5700万使用过英格兰国民健康服务(NHS)的人的医疗数据进行了训练。据《新科学家》报道,这项由包括伦敦大学学院(UCL)健康信息学研究所和国王学院伦敦分校的研究人员领导的项目,代表了其创造者所称的“世界上第一个国家级规模的健康数据生成AI模型”,利用了从2018年11月至2023年12月记录的大约100亿个健康事件。

该模型基于Meta公司的开源Llama 2模型构建,整合了门诊预约、医院访问和疫苗接种记录等多样化的数据集。开发者认为,Foresight最终可以帮助医生在疾病并发症发生之前进行预测,从而提供宝贵的早期干预窗口,并且还可以预测更广泛的健康趋势,如住院率。

Chris Tomlinson表示:“Foresight的真正潜力在于能够在疾病并发症发生之前进行预测,为我们提供宝贵的早期干预机会,从而实现更大规模的预防性医疗。”

2023年的早期版本Foresight使用了OpenAI的GPT-3和来自两家伦敦医院的小型数据集。

几乎整个英格兰人口的数据用于训练AI引发了其他研究人员和隐私倡导者的重大隐私和数据保护担忧。尽管开发者坚称记录在使用前已被“去标识化”,但专家警告说,大型数据集的丰富性使得重新识别的风险已得到充分记录。开发者自己也承认,不能保证系统不会无意中暴露敏感的患者信息。

牛津大学的Luc Rocher指出,在保护患者隐私的同时构建强大的生成式AI模型仍然是一个未解决的科学问题。他认为,对AI有价值的数据越丰富,就越难以匿名化,建议此类模型应严格由NHS控制以确保安全使用。NHS Digital负责Foresight数据的Michael Chapman承认,虽然直接标识符已被移除,但对于丰富的健康数据来说,提供绝对的防重新识别保障是具有挑战性的。

该AI在一个专门的NHS England安全数据环境(SDE)中运行,计算基础设施来自亚马逊网络服务和Databricks,但据报道这些公司无法访问数据。

透明度和用户控制也是争论的核心点。牛津大学的Caroline Green指出,未经个人知情而使用如此庞大的数据集会削弱公众信任。她表示:“即使数据被匿名化,人们从伦理角度来看对此感到非常强烈,因为人们通常希望对自己的数据保持控制,并想知道数据的去向。”

Green认为,伦理和人的考虑应该是AI开发的起点,而不是事后考虑。她表示:“在AI开发方面存在一个问题,即伦理和人的问题往往是次要的,而不是首要的。”

目前,现有的退出机制不适用于全国收集的NHS数据集,因为它们已经被“去标识化”。一位NHS England发言人表示,由于数据已被匿名化,因此不被视为个人数据,因此《通用数据保护条例》(GDPR)不适用。然而,英国信息专员办公室(ICO)的指导指出,“去标识化”数据不应与匿名数据混为一谈,指出英国数据保护法没有定义该术语,这可能导致混淆。

此外,法律地位因Foresight目前仅限于与COVID-19相关的研究而变得复杂,允许其在疫情期间实施的数据保护法例外情况下运行。英国数据隐私组织medConfidential的Sam Smith认为,这种“仅限COVID-19的AI”很可能包含嵌入的患者数据,不应离开实验室。

Smith表示:“这种仅限COVID-19的AI几乎肯定包含嵌入的患者数据,这些数据不应离开实验室。”他强调,患者应该对其数据的使用方式保持控制权。

帝国理工学院的Yves-Alexandre de Montjoye指出,测试模型是否能够记住训练数据对于评估其揭示敏感信息的能力至关重要,据报道Foresight团队尚未进行这一测试,但正在考虑中。

尽管存在隐私问题,支持者强调像Foresight这样的AI有可能彻底改变医疗保健。卫生大臣Wes Streeting支持利用这项技术减少不必要的医院访问、加速诊断并释放员工资源。科学技术大臣Peter Kyle也支持该项目,将其视为迈向“医疗革命”的一步,并且是英国政府变革计划的一部分。

NHS England转型国家总监Vin Diwakar支持使用大型数据集训练AI进行预防性护理。Diwakar表示:“当AI在大型数据集上进行训练时,它有潜力改变我们预防和治疗疾病的方式。”

Chris Tomlinson指出,使用国家级数据使模型能够代表英格兰的多样化人口,特别是少数民族群体和罕见疾病。

Foresight模型的目标包括识别健康不平等和支持人群层面的风险分析。该模型分析了从1997年到2018年的数据,旨在提前五年预测超过700种健康状况。2024年发表在《柳叶刀数字健康》上的一项研究表明,Foresight能够预测未来的健康状况,特别是在预测心力衰竭、慢性肾病和2型糖尿病方面显示出特别的前景。研究人员希望在未来的迭代中包括更丰富的数据源,如临床医生的笔记、血液检测和扫描结果。

Foresight引发的辩论反映了科技行业中类似的数据隐私讨论。例如,Meta因其使用公开可访问的英国社交媒体数据进行AI训练而受到ICO和爱尔兰数据保护委员会(DPC)的审查。尽管在欧洲法院裁决后面临批评,Meta仍为其做法辩护,称其符合GDPR的“合法利益”条款。

同样,隐私监督机构NOYB就xAI涉嫌未经适当同意使用数百万欧盟用户的个人数据训练其Grok AI模型提出了GDPR投诉,导致爱尔兰DPC暂时停止处理。

随着这些隐私辩论的发展,医学AI也在继续发展。微软研究院与华盛顿大学和普罗维登斯合作,最近推出了BiomedParse,这是一种旨在增强医学图像分析的AI模型。该模型利用OpenAI的GPT-4合成了来自Hugging Face的大型数据集,旨在简化复杂的程序,但也面临着与数据隐私和法规遵守相关的部署障碍。

2024年初,微软还推出了GigaPath,用于分析千兆像素病理图像。与此同时,巴黎初创公司Bioptimus发布了其H-optimus-0病理模型,该模型基于大量组织病理学切片进行训练,旨在提高疾病诊断和医学研究水平。

大阪市立大学最近在《自然》杂志上发表的一项元分析发现,生成式AI的诊断准确性与非专科医生相当。

2024年中期的一项公众意见调查显示,54%的公众和76%的NHS工作人员支持在患者护理中使用AI,尤其是对非临床任务的支持更高。然而,信任仍然是一个问题,特别是老年人希望了解数据使用情况。

Pharmaphorum的一篇评论指出,NHS数据质量可能较差,因为它是在问题已经存在时收集的。


(全文结束)

声明:本文仅代表作者观点,不代表本站立场。

本页内容撰写过程部分涉及AI生成(包括素材的搜集与翻译),请注意甄别。

7日热榜