哥伦比亚大学领导的研究团队开发了一个开源框架,旨在简化和加速使用健康数据的人工智能研究,解决跨机构数据标准化、可重复性和协作方面的长期挑战。
该框架名为MEDS,引入了标准化的数据格式和不断发展的互操作工具生态系统,旨在支持使用临床数据开发和评估机器学习模型。
描述该框架的一项研究已发表在《新英格兰医学杂志AI》(NEJM AI)上。
研究人员表示,该框架有助于减少目前阻碍健康AI研究的技术障碍,使科学家难以在不同研究和机构之间重现研究结果或比较模型。
MEDS是一种简单的方法,可使所有不同来源的电子健康记录(EHR)数据在您的代码中看起来一致,无论这些数据来自哪家医院、诊所或EHR软件系统。MEDS让我们能够共享代码,在许多不同的医疗机构训练模型,而无需共享敏感的患者数据——而且通常甚至不需要完成将数据完全"标准化"为一致的临床词汇表这一更具挑战性的步骤。这一基础设施将使研究人员能够减少重建数据处理流程的时间,更多地专注于回答具有临床意义的问题。
哥伦比亚大学生物医学信息学助理教授、该研究负责人Matthew McDermott博士说。
临床AI研究中的健康数据标准化
电子健康记录数据通常以特定机构的格式存储,在用于AI开发之前需要进行大量预处理。根据研究作者的说法,这些不一致性可能导致大量重复工作,限制协作,并阻碍研究可重复性。
MEDS通过提供一种轻量级、可扩展的标准来表示机器学习工作流程中的纵向临床数据,解决了这些问题。该框架还包括支持数据转换、预处理、基准测试和模型开发的开源工具。
作者强调,MEDS是专门为AI和机器学习应用设计的,它补充而非取代现有的临床数据标准。
该框架旨在支持生物医学AI研究中的广泛用例,包括预测建模、表示学习、多模态模型和大规模基准测试研究。由于该生态系统是开源的,来自学术界、医疗保健和行业的研究人员都可以贡献工具和扩展。
McDermott说:"AI领域的重大成功始终是由社区共同协作推动的,通常是以分散的、开源的方式,在工具、模型组件和最终生态系统上进行协作,使我们能够构建可扩展到海量数据集的更大模型。MEDS中这些令人印象深刻的成果只是反映了当社区能够共享工具或将管道的公共部分抽象为共享库并在所有人的数据上使用时所获得的好处。"
随着机器学习模型越来越多地投入临床应用,该研究还强调了健康AI开发中可重复性和透明性的重要性。
研究人员表示,他们希望MEDS能够促进机构间的更广泛合作,加速临床AI的创新,同时促进更透明和可重复的科学研究。目前,MEDS已在跨越12个国家的21个机构中得到采用。
【全文结束】

