研究人员开发了全球首个真实世界头对头测试平台,用于确定商用人工智能(AI)算法是否适合英国国家医疗服务体系(NHS)使用,以公平、公正、透明和可信的方式检测疾病,首次以糖尿病视网膜病变为例进行测试。他们表示,该平台消除了公司希望在临床环境中部署其AI软件可能带来的任何偏见,使所有公司处于平等竞争的环境中。
目前,NHS的AI算法选择主要集中在成本效益和匹配人类表现上。然而,更广泛的挑战依然存在,特别是需要强大的数字基础设施和对商用算法进行更严格的测试。
至关重要的是,作为医疗器械使用的软件很少在大规模上评估算法公平性,特别是在不同人群和种族之间。这种疏忽导致了健康方面的无意差异,例如用于测量血氧饱和度的脉搏血氧仪在肤色较深的人群中准确性较低,促使政府审查包括AI在内的医疗器械的公平性。
研究细节和测试过程
在今天发表在《柳叶刀数字健康》杂志上的一项研究中,由伦敦城市圣乔治大学的阿利恰·鲁德尼卡教授和莫菲尔德眼科医院NHS基金会信托的阿德南·图法伊尔领导的研究人员,与金斯顿大学和霍默顿医疗NHS信托合作,对这一独立平台进行了试验。该平台用于比较设计用于检测糖尿病视网膜病变的商用AI算法。这些算法通过识别眼底血管损伤迹象来工作。
在英格兰和威尔士NHS糖尿病视网膜病变筛查计划注册的400万人中,超过300万人每1-2年接受一次糖尿病视网膜病变筛查。仅英格兰NHS筛查服务每年就生成约1800万张眼底图像,所有这些图像都由最多三个人进行分析。这产生了巨大且日益不可持续的工作量,占用了宝贵的时间、金钱和资源,研究人员认为这些资源可以用于提供更好的护理。
与具有前瞻性思维的霍默顿医疗NHS信托及其进步的IT部门合作,建立了一个由独立研究人员组成的"可信研究环境"。邀请了25家拥有CE认证算法的公司参与研究,其中8家接受了邀请。
这8个AI算法被"接入"平台,并在来自东北伦敦糖尿病视网膜病变筛查计划的120万张眼底图像上运行——这是种族、年龄、贫困水平和糖尿病视网膜病变谱系方面最大且最多样的糖尿病筛查计划之一。
8个算法的表现与遵循NHS现行标准协议的最多三名人类分析的图像进行了比较。供应商算法无法访问人工分级数据,公司在其算法分析图像的数据"安全港"中被排除在外。
关键发现和影响
伦敦城市圣乔治大学健康与医学科学学院领导这项研究的阿利恰·鲁德尼卡教授表示:"我的革命性平台提供了全球首个公平、公正和透明的AI系统评估,用于检测威胁视力的糖尿病视网膜病变。这种对AI的严格审查程度远高于以往对人类表现的审查。我们已经证明,通过使用庞大的数据集,这些AI系统在NHS中使用是安全的,最重要的是,证明它们在不同种族和年龄组中都能良好工作。"
共同首席研究员、莫菲尔德眼科医院的阿德南·图法伊尔表示:"英国超过400万糖尿病患者需要定期眼部检查。这项开创性研究通过在潜在大规模推广前严格测试AI系统来检测威胁视力的糖尿病视网膜病变,树立了新的基准。我们开发的方法为更安全、更智能的AI在许多医疗保健应用中的采用铺平了道路。"
总共评估了202,886次筛查就诊,代表了来自32%白人、17%黑人和39%南亚种族群体的120万张图像。AI系统分析每位患者的所有图像仅需240毫秒至45秒,而训练有素的人类则需要长达20分钟。
AI算法识别可能需要临床干预的糖尿病视网膜病变的准确率为83.7-98.7%。重要的是,对于中度至重度糖尿病视网膜病变,准确率为96.7-99.8%;对于最先进(增殖性)威胁视力的糖尿病视网膜病变,准确率为95.8-99.5%。相比之下,在之前发表的一项研究中,人类手动分级这些级别糖尿病视网膜病变图像的准确率在75%至98%之间,表明AI算法在极短的时间内表现与人类相同,甚至更好。
该平台还检测了每个算法将健康病例错误标记为患有糖尿病视网膜病变的比率,这是准确性的另一个关键衡量标准。结果显示,这些算法在不同种族群体中表现一致良好,这是首次进行此类评估。
未来潜力和更广泛的影响
阿利恰·鲁德尼卡教授补充道:"这项工作为将我们的平台从本地扩展到国家层面铺平了道路。我们的愿景是提供集中式AI基础设施,托管批准的算法,使所有筛查中心都能安全上传视网膜图像进行分析。AI生成的结果将返回给中心,并直接整合到患者的电子健康记录中。这种方法消除了在多个站点复制基础设施的需要,降低了设置成本,并确保全国范围内提供一致、公平的服务。"
研究人员表示,他们的平台使所有参与者都受益——为公司提供独立反馈以改进其技术的机会,为NHS信托提供选择最适合其工作的AI工具的机会,使高度重复性任务更加高效,从而使进行筛查的人员能够专注于高风险疾病并采用新型视网膜扫描。患者最终也将受益于更快的诊断和最佳护理。
这种独特而透明的方法可能成为评估其他慢性疾病(如癌症和心脏病)中AI工具的蓝图,有助于建立公众信任并加速医疗保健中安全、公平的AI采用。
参与金斯顿大学研究的莎拉·巴曼教授表示:"这项对AI算法有效性的大规模评估使我们能够展示不同算法在人口亚组中的表现情况。它还提供了一种清晰的方法,可以应用于其他医学领域,以帮助确保AI公平且对每个人都能良好工作。"
更多信息: 《柳叶刀数字健康》杂志发表的研究"Accuracy of automated retinal image analysis systems (ARIAS) to triage for human grading to detect diabetic retinopathy in a large-scale, multiethnic national screening programme"(2025年)。DOI: 10.1016/j.landig.2025.100914
【全文结束】

