如果用于训练医疗应用(如大多伦多地区医院)的人工智能模型的数据与现实世界数据不同,可能会导致患者受到伤害。约克大学今天在《JAMA Network Open》上发表的一项新研究发现,主动、持续和迁移学习策略对于减轻数据偏移及其后续危害至关重要。
为了确定数据偏移的影响,研究团队构建并评估了一个早期预警系统,以预测住院患者的死亡风险,并优化了大多伦多地区七家大型医院的患者分诊。
该研究使用了加拿大最大的医院数据共享网络GEMINI,评估了数据偏移和偏差对临床诊断、人口统计学特征、性别、年龄、医院类型、患者转院来源(如急性护理机构或疗养院)以及入院时间的影响。研究包括了143,049次患者就诊记录,如实验室结果、输血、影像报告和管理特征。
“随着医院中人工智能的应用增加,从预测死亡率和住院时间到败血症和疾病诊断,确保这些模型按预期工作且不造成伤害的需求变得更大。”约克大学健康政策与管理学院助理教授Elham Dolatabadi说,她是Connected Minds的成员,也是Vector Institute的教员。
“然而,由于数据随时间变化,建立可靠和强大的机器学习模型已被证明是困难的,这会导致系统的不可靠性。”
她补充说,用于训练医院和其他医疗环境中的临床AI模型的数据需要准确反映患者的多样性、疾病和医疗实践。否则,模型可能会产生无关或有害的预测,甚至不准确的诊断。患者亚群体的差异、人员配备、资源以及政策或行为的意外变化、不同医院之间的医疗实践差异或突发的大流行病都可能导致这些潜在的数据偏移。
“我们发现在模型训练和实际应用之间存在显著的数据偏移,包括人口统计学特征、医院类型、入院来源和关键实验室检测的变化。”第一作者、多伦多大学卫生网络AI科学家Vallijah Subasri说。“我们还发现,当模型在社区医院患者访问数据上训练后转移到学术医院时,会出现有害的数据偏移,但反之则不会。”
为了减轻这些潜在的有害数据偏移,研究人员使用了迁移学习策略,使模型能够存储从一个领域学到的知识并将其应用于另一个相关领域,并使用持续学习策略,其中AI模型通过连续的数据流进行更新,以响应漂移触发的警报。
尽管机器学习模型通常在批准使用后保持锁定状态,但研究人员发现,利用迁移学习的具体医院类型的模型比使用所有可用医院数据的模型表现更好。
使用漂移触发的持续学习有助于防止因COVID-19大流行引起的数据偏移,并随着时间推移改善模型性能。
根据其训练数据,AI模型也可能具有某些偏见,导致对某些患者群体不公平或歧视性的结果。
“我们展示了如何检测这些数据偏移,评估它们是否对AI模型性能产生负面影响,并提出缓解其影响的策略。我们展示了从潜力到实践的实际路径,弥合了人工智能在健康领域的潜力与在现实世界临床环境中部署和维持它的现实之间的差距。”Dolatabadi说。
这项研究是临床AI模型部署的关键一步,因为它提供了确保这些模型在现实世界环境中安全和有效的策略和工作流程。
“这些发现表明,一种主动的、标签无关的监控管道结合迁移和持续学习可以检测并缓解多伦多普通内科人群中的有害数据偏移,确保稳健和公平的临床AI部署。”Subasri说。
(全文结束)

