新冠疫情激发了无数个人英雄主义行为和一些惊人的科学集体成就。制药公司运用新技术在创纪录的时间内开发出高效疫苗,新型临床试验彻底改变了我们对新冠治疗有效性的认知。然而,当英国艾伦·图灵研究所审视人工智能在疫情应对中的贡献时,却未发现值得庆贺的成果。
该研究所去年发布的报告指出,人工智能对疫情的实际影响微乎其微,专家们普遍面临医疗数据获取难题,导致技术应用存在系统性偏差。报告基于两项针对数百项研究的综述,发现几乎所有用于检测新冠症状的AI工具都存在缺陷。"我们本想突出那些展现这项激动人心技术实际成效的闪耀明星,"报告编辑、医师兼研究员比拉尔·马廷表示,"遗憾的是,我们找不到这些明星,只发现大量问题。"
人工智能作为医疗保健领域相对新兴的工具,未能在疫情中力挽狂澜虽可理解,但马廷和其他研究者指出,新冠AI项目的失败反映了更广泛的模式:尽管期望很高,将数据与算法结合以改善医疗保健的实践正面临严峻挑战。
许多基于历史医疗数据样本的研究声称,算法在特定任务上高度精准,例如识别皮肤癌或预测患者预后。部分技术已融入医生用于监测中风或眼疾迹象的获批产品。但更多医疗AI构想仍停留在概念验证阶段。研究人员警告称,当前多数研究使用的数据在数量和质量上均不足以充分测试AI应用,这导致不可靠技术投入医疗系统可能造成真实危害。部分现行医疗算法已被证实不可靠,或对特定人口群体存在偏见。
"研究社区欺骗自己,以为正在开发的模型远比实际效果更好,这进一步助长了AI炒作。"亚利桑那州立大学副教授维萨尔·贝里沙指出。数据驱动改善医疗的理念并非新创——1855年,伦敦医师约翰·斯诺通过在地图标记霍乱病例,首次证明该病经水源传播。近年来,医生、研究者与技术专家对将科技行业磨练出的机器学习技术(如图像分类或语音转录)应用于医疗充满热情。
然而,科技行业环境与研究医院条件截然不同。Facebook等公司可获取用户发布的数十亿照片优化图像识别算法,而医疗数据因隐私顾虑和陈旧IT系统难以获取。影响患者医疗决策的算法部署风险远高于垃圾邮件过滤或广告定向。"我们不能简单照搬消费领域开发AI工具的范式,直接移植到临床空间。"贝里沙强调。他近期与亚利桑那州立大学工程及健康部门同事发表论文警告,许多医疗AI研究因在过小数据集上使用强大算法,使模型准确率虚高。
原因在于医疗数据(如医学影像、生命体征及可穿戴设备数据)常因生活方式或背景噪音等非健康因素产生波动。科技行业普及的机器学习算法过于擅长发现规律,可能找到"正确"答案的捷径,但这些模式在现实世界中失效。小型数据集更易导致算法"作弊",产生临床表现不佳的盲点。"研究社区自欺欺人地认为模型效果远超实际,这加剧了AI hype。"贝里沙说。
该问题在部分医疗AI研究中形成令人担忧的模式:在利用算法通过语音识别阿尔茨海默病迹象的研究中,贝里沙团队发现大型研究报告的准确率反而低于小型研究——这与大数据本应带来的效益背道而驰。另一项关于医学影像识别脑部疾病及机器学习检测自闭症的研究综述也报告了类似现象。
"算法在初步研究中表现良好,但在真实患者数据上行为迥异的风险绝非假设。"2019年一项研究发现,美国数百万患者使用的复杂疾病优先护理系统,将白人患者置于黑人患者之前。避免此类偏见系统需要大规模平衡数据集和严谨测试,但受历史及持续健康不平等影响,失衡数据集在医疗AI研究中实为常态。2020年斯坦福研究显示,71%应用于美国医疗数据的深度学习研究仅使用加州、马萨诸塞州或纽约州数据,其余47州几乎无代表性,低收入国家在医疗AI研究中更近乎缺席。去年发表的150多项研究综述结论认为,多数"方法学质量低下且存在高偏见风险"。
两位关注此问题的研究者近期创立非营利组织"夜莺开放科学",旨在提升研究者可用数据集的质量与规模。该组织与医疗系统合作,整理患者记录中的医学影像及相关数据,进行匿名化处理后供非营利研究使用。
夜莺联合创始人、加州大学伯克利分校副教授齐亚德·奥贝迈耶希望,开放数据能推动类似公开图像库促进机器学习发展的竞争机制。"核心问题在于,研究者在医疗数据领域为所欲为却无人验证其结果,"他表示,"数据被锁在高墙之内。"
夜莺与其他项目正通过提升数据获取和质量来改善医疗AI。拉库纳基金支持创建代表中低收入国家的机器学习数据集;英国伯明翰大学医院在国家医疗服务体系和麻省理工学院支持下,正制定评估AI系统是否基于无偏数据的标准。
马廷虽赞赏此类AI专项项目,但强调医疗AI前景还取决于医疗系统对其陈旧IT基础设施的现代化改造。"你必须从问题根源投资,才能看到成效,"马廷说。
【全文结束】

