英国研究人员开发了一个平台,能够测试为英国国家医疗服务体系(NHS)应用设计的商业人工智能算法是否适用且无偏见。
该平台最初用于评估八种人工智能系统能否以"公平、公正、透明和可信赖的方式"通过识别眼底血管损伤迹象来检测糖尿病眼病,分析了伦敦东北部糖尿病视网膜筛查计划中20多万次筛查访问的120万张视网膜图像。
研究团队得出结论:所有算法均通过测试。八种算法的性能与在独立研究人员的可信研究环境中由最多三名遵循NHS标准协议的人员分析的图像进行了对比验证。
发表在《柳叶刀-数字健康》的这项研究显示,所有八种人工智能算法在识别可能需要临床干预的糖尿病眼病方面的准确率介于83.7%至98.7%之间。先前对人工分级图像的研究准确率则为75%至98%。
该模型旨在解决企业在推动AI获得NHS支持时可能在支持数据中引入偏见的风险,未来可应用于其他人工智能医疗场景。
伦敦城市圣乔治大学的阿里恰·鲁德尼卡(Alicja Rudnicka)教授与莫菲尔兹眼科医院NHS基金会信托的阿德南·图法伊尔(Adnan Tufail)共同领导了这项研究。鲁德尼卡表示,他们的方法"提供了全球首个公平、公正和透明的评估体系,用于检测威胁视力的糖尿病眼病的人工智能系统"。
研究团队指出,作为医疗设备使用的软件(SaMD)技术极少在大规模范围内,特别是在不同人群和种族中接受算法公平性评估。
鲁德尼卡补充道:"这种对人工智能的审查深度远超以往对人类表现的评估。我们通过使用海量数据集,并关键性地证明这些系统在不同种族和年龄群体中均表现良好,证实了这些AI系统在NHS中的安全性。"
2021年,英国国家卫生与临床优化研究所(NICE)曾建议NHS试用三种糖尿病视网膜病变检测AI系统,但未推荐常规采购。
莫菲尔兹医院的顾问眼科医生图法伊尔表示,鉴于英国超过400万糖尿病患者需要定期眼部检查,这项研究为大规模推广前建立检测威胁视力眼病的AI系统基准测试提供了路径。
他强调:"我们开发的方法为医疗领域更安全、更智能地采用人工智能铺平了道路。"
研究团队建议,该评估方法未来可扩展应用于癌症和心脏病等慢性病领域的人工智能系统评估。
【全文结束】

