研究人员开发了世界上首个独立平台,用于严格测试商业人工智能(AI)算法是否适合在英国国家医疗服务体系(NHS)中用于疾病检测,确保其公平、公正、透明且值得信赖——以糖尿病视网膜病变作为首个应用案例。
这项革命性平台在《柳叶刀·数字健康》期刊上发表的一项研究中进行了试验,该研究由伦敦城市大学圣乔治学院的Alicja Rudnicka教授领导。金斯顿大学团队,包括Sarah Barman教授和Jiri Fajtl博士,与摩菲尔兹眼科医院、伦敦大学学院和霍默顿医疗NHS基金会信托的专家合作。
在由NHS转型指导局和健康基金会资助的研究中,该平台被用于比较设计用于检测糖尿病视网膜病变的商业AI算法。这些算法通过识别眼底血管损伤迹象来工作,这些迹象对人类观察者可能是不可见的。
目前,NHS对AI的选择主要关注成本效益和与人类表现的匹配。然而,迫切需要对不同人群和种族群体进行算法公平性的严格测试,这种疏忽可能导致健康差异和人们接受的护理不均。这个新平台让所有AI公司在同等条件下竞争,消除了供应商主导测试中可能存在的偏见。
研究人员使用该新平台,利用东北伦敦糖尿病视网膜病变筛查项目的120万张眼底图像测试了八种AI算法,评估了来自白人、黑人和南亚种族群体的20多万次筛查访问。
研究发现,AI系统能够在240毫秒至45秒内分析每次筛查,而训练有素的人类则需要长达20分钟。识别需要干预的糖尿病视网膜病变的准确率范围为83.7%至98.7%,而对于最先进的眼部威胁性疾病的识别,准确率范围为95.8%至99.5%——在极短的时间内表现与人类评分员相当甚至更好。
这些算法在不同种族群体中也表现出持续良好的性能——这是首次进行此类评估。
研究人员认为,这项工作为建立集中式的NHS AI基础设施铺平了道路,该基础设施将托管国家糖尿病视网膜病变筛查计划的批准算法。这将确保全国范围内一致、公平的服务交付,消除冗余的基础设施设置成本,并加快患者诊断速度。
Barman教授表示,这项研究将有助于了解AI算法的结果是否存在偏见。"这项对AI算法有效性的大规模评估使我们能够展示不同算法在人口亚群体中的表现。它还提供了一种明确的方法,可以应用于其他医学领域,以确保AI公平且对每个人都有效。"
Rudnicka教授表示,对AI系统施加的审查水平远高于对人类表现的任何审查。"我们的革命性平台提供了世界上首个公平、公正和透明的AI系统评估。我们通过使用庞大的数据集证明了这些AI系统在NHS中使用的安全性,最重要的是,证明了它们在不同种族和年龄群体中都能良好工作。"
研究人员希望,这里建立的透明评估方法能够成为评估其他慢性疾病(如癌症和心脏病)中AI工具的蓝图,从而增强公众对医疗保健AI采用的信任。
【全文结束】

