国家数据图书馆(NDL)是英国政府AI机遇行动计划的关键组成部分。其核心在于政府确定了五个高影响力的公共数据集,以供政府机构、企业和研究人员使用,从而推动医疗保健、政策制定和公共服务的创新。
问题是如何构建它,以及我们正在构建什么?
建设国家数据图书馆的先例
关于如何建设NDL,意见不一。一种观点认为,它应该是一个去中心化的、联邦化的数据平台,连接现有的数据库并促进数据交换,而不集中存储数据。另一种观点则认为,它应该是一个集中的数据存储库。
英国生物银行就是一个集中的数据存储库的例子。它持有50万人的健康数据,可以由经过批准的学术、企业、慈善机构和政府研究人员访问。数据使用的透明度、强大的安全措施以及公众对隐私保护的信任是其成功的关键。
爱沙尼亚的X-Road平台则是去中心化数据存储的一个例子。X-Road是支持全国数字身份计划的技术基础。它促进了政府机构之间的无缝数据交换,同时保持数据的分散存储。该系统使爱沙尼亚人能够轻松地与从医疗保健到税务的各种公共服务进行互动,节省了时间并提高了效率。
该平台的经验强调了互操作性的重要性,以及确保数据不被篡改和安全性的必要性。最重要的是,它是以用户为中心的,并且遵循“只提供一次”原则。爱沙尼亚公民不需要知道它的运作方式,只需要知道它有效,并且只需提供一次数据,这些数据会自动更新到所有相关系统中。
坚实的基础是建设图书馆的关键
拟议中的国家数据图书馆将是任何国家迄今为止最大的数据统一项目。无论它包含什么以及如何使用,其基础都是相同的:高质量、可信的数据。
NHS的数字化转型工作是现代主数据管理复杂性的完美例子。我们的医疗系统拥有世界上最大的医疗数据集,这将成为NDL的核心部分。尽管NHS通常被称为单一实体——“NHS”,但它实际上是由多个部门、委托和提供组织、地区和系统组成的集合体。
随着需要协调地方当局和社会护理,特别是在人口老龄化给医院带来压力的情况下,复杂性进一步增加。患者数据目前分散在遗留系统中,碎片化的IT基础设施往往没有共同的数据格式和/或标准,经常不完整、过时和/或不准确。所有这些都经常导致在不同(孤立的)存储库中出现重复条目。NHS的目标是通过跨多个数据源的数据匹配来创建一个单一的真实视图。
现代数据管理转型挑战
传统的主数据管理存在固有的数据质量问题。这些模型需要很长时间来摄取源系统馈送,而这些馈送往往受到数据质量问题的困扰。它们还依赖于数据匹配,这会比较每个数据字符串并对其进行评分以创建记录对记录的匹配。
这些概率匹配引擎使用算法来评估和评分匹配。对于具有多个识别属性的患者记录来说,这是不理想的,因为个人数据的变化(例如,Eliza vs Elizabeth)会导致不准确的匹配,使得为每个公民创建单一、准确的记录变得困难。
管理患者和公民数据的一种更强大的方法是实体解析(ER)。ER使用模式无关的模型来节省数据工程团队进行初步数据转换的时间和金钱。ER利用所有可用记录来创建最准确的个人数据表示,最大限度地减少错误并提高政府数据集的可靠性。
对于不断添加的公共部门数据集,ER允许持续的数据刷新,适用于构建在平台上的所有应用程序和服务。
从NHS得到的国家数据图书馆的经验教训
目前由英格兰NHS实施的联邦数据平台(FDP)为我们提供了国家数据图书馆可能如何运作的一瞥。FDP聚合本地医疗数据,以实现更快、更协调的区域级护理,减少因系统碎片化造成的低效。
如果扩展,国家级别的数据平台可以统一NHS的健康记录,允许通过NHS应用程序访问单个患者记录。这种方法认识到公民在不同地区与多种公共服务互动,需要一个无缝的数据共享框架。
通过上下文数据共享增强公共服务
如前所述,政府对国家数据图书馆的方法将重点放在识别五个关键的公共数据集上,这些数据集可以产生最直接的影响。然而,如果没有明确的应用策略,数据本身是没有价值的。
一个有前景的例子是使用NDL实现NHS和工作与养老金部之间的跨部门数据共享。通过链接医疗和就业数据,政策制定者可以更深入地了解健康结果与社会经济因素之间的联系。此外,将福利资格验证整合到医疗服务中可以减少欺诈,并确保资源分配给真正需要的人。
政府系统之间的无缝互操作性对于最大化NDL的好处至关重要,使各部门能够高效沟通,并减少手动数据处理的需求。
如果你建好了,他们就会来
政府对国家数据图书馆的愿景是雄心勃勃的,但其改变公共服务的潜力是无与伦比的。虽然NDL的确切结构尚未最终确定,但其创建过程与结果一样重要。
(全文结束)

