利用PETs推动AI/ML
将人工智能和机器学习(AI/ML)应用于医疗领域,包括药物发现和临床诊断,前景越来越广阔,因为这些技术可以识别大量健康数据中的复杂模式。然而,获取高质量的健康数据——特别是具有代表性的人口数据——仍然是实施数据驱动创新的组织面临的主要挑战。随着AI/ML改变生命科学,加速获取健康数据可以帮助研究组织开发成功率更高的药物和医疗器械,而增加代表性数据的访问量可以确保不同人口群体都能从AI/ML在医疗领域的应用中受益。
隐私增强技术(PETs)提供了一部分解决方案,通过提高对敏感健康数据的访问来保护患者的隐私权。英国在利用PETs支持其生命科学行业采用AI/ML方面具有独特的优势,这符合其AI机遇行动计划的目标。
什么是PETs?
PETs是一系列工具,使原本因隐私原因无法访问的数据得以访问。这些工具包括合成数据、联合学习和可信研究环境(TREs):
- 合成数据:人工生成以再现真实数据的关键统计或结构属性,旨在通过防止重新识别来保护原始数据主体的隐私。合成数据可以在不暴露敏感个人信息的情况下支持AI/ML的开发和训练,从而在遵守数据保护法规的同时促进创新。
- 联合学习:一种去中心化的方法,模型训练分布在多个节点或机构之间,只共享模型更新(例如梯度或权重),而不是基础数据。联合学习可以在不集中敏感数据的情况下促进跨机构边界的合作,降低隐私风险,同时利用多样化的数据集提高模型性能。
- 可信研究环境(TREs):提供远程数据访问的安全计算环境。TREs允许在受控环境中分析敏感数据集,内置安全措施、治理协议和审计跟踪,以确保适当的数据使用同时维护隐私保护。
合成数据、联合学习和TREs是互补的,可以结合使用:例如,联合学习可以在TREs内部或之间进行,合成数据可以用于模拟或原型分析,然后再进行安全访问。
PETs是如何使用的?
PETs在各个领域被用来解决现实世界中的数据访问挑战,同时保护数据隐私。在英国,openSAFELY平台使研究人员能够在不直接访问的情况下分析数百万份NHS初级保健记录,通过在安全环境中使用联合分析。研究人员会获得低保真的“虚拟”数据来开发自己的分析代码,然后由openSAFELY在真实数据上运行联合分析,从而从整个初级保健系统中生成见解。这种设计是为了保护数据隐私,使研究人员永远不会直接与患者记录互动。
在英国之外,IDERHA(异构数据和证据整合以实现监管和HTA接受)是欧盟与欧洲生命科学产业之间通过公私合作资助的第一个研究项目之一。IDERHA旨在建立一个泛欧健康数据空间,以促进对多样化健康数据的访问和分析。类似于openSAFELY,IDERHA旨在利用联合方法实现去中心化的数据洞察。
这些用例突显了健康数据领域的转变,PETs越来越多地被视为解锁健康数据并尊重患者数据权利的可行工具。
PETs的好处是什么?
有许多用例表明PETs可以加速生物制药研究。考虑生物制药组织实施机器学习的关键限制因素:
- 组织获取健康数据的速度
- 评估数据的实用性
- 如果初始数据不如预期有用,请求不同的数据集或子集
- 设计适当的模型架构来训练数据
以上所有都可能成为ML训练的障碍。然而,如果组织能够更清楚地了解数据集的内容,他们就能够更仔细地选择要摄入的数据,并在摄入数据之前准备好模型,从而节省数周甚至数月的时间。这一原则已经在openSAFELY中得到应用,但在摄入数据之前提供更多高保真合成数据将对生物制药研究产生重大加速作用。
使用PETs访问健康数据对于NHS尤其有利,因为NHS是英国的全国性医疗服务提供者。作为主要的医疗服务提供者,NHS存储了大量的健康数据,涵盖了整个生命周期以及各种系统(例如初级和二级护理)。通过NHS连续护理产生的数据具有巨大的潜力,可以提供其他碎片化医疗系统可能无法捕捉到的健康洞察。此外,NHS提供的全国性健康覆盖不仅增加了数据可用性,还增加了数据多样性——考虑到英国相对多样的人口——这对于在社会经济群体、种族和地区之间训练公平且通用的模型是必要的。
使用PETs时的注意事项
PETs需要基于风险的治理和技术控制,以确保稳健和负责任的使用。需要系统性的框架来确保透明的数据使用,尊重患者同意和隐私,并防止滥用,以避免历史上损害英国开放健康数据努力的公众信任失败。
同样,政策制定者可以与行业从业者合作,制定最佳实践技术标准,以确保合成数据和其他PETs的稳健和可靠性能,避免模型崩溃、过拟合等不当使用PETs带来的问题。缺乏这些控制,隐私侵犯和令人失望的模型性能可能会削弱对这些技术的信心。
在制定明确的治理规范时,有几个公共政策问题需要解决。这包括在某些情况下,在实用性和隐私之间找到适当的平衡:例如,合成数据的保真度可以有所不同;在其他条件相同的情况下,更高保真度的合成数据更有用,因为它更接近实际数据,但这增加了敏感模式、异常值或个别记录被推断或重新识别的风险。
DSIT和ICO已经开发了一些有用的工具来指导组织使用PETs。进一步的政府指导可以帮助健康机构和研究组织更好地处理这种权衡,并为患者同意、透明度和其他伦理保障制定标准。
抓住机会
尽管近年来PETs的使用逐渐增多,但在健康数据领域仍需进一步的临床验证。NHS目前正在开展一个人工数据试点,探索低保真合成数据的实用性。进一步的工作,特别是探索高保真合成数据的用例、好处和局限性尤为重要。虽然联合分析目前在NHS中已得到应用,但联合训练机器学习模型的试点仍有待全面探索。
我们认为,围绕PETs使用的政策框架缺失是人们对PETs犹豫不决的主要原因之一。监管机构和政策制定者可以通过发布更明确的PETs使用指南来抓住这个机会,培养确定性和信心。新加坡等前瞻性政府已经发布了相关指南,充分利用这项技术。当英国政府正在寻找AI机会时,我们建议扩大PETs的使用是一个潜在的高回报机会,适用于英国领先的行业之一。
(全文结束)

