放射科医生开始使用基于AI的计算机视觉模型来加快解析医学扫描图像这一繁琐过程。然而,这些模型需要大量精心标注的训练数据才能达到一致和准确的结果,这意味着放射科医生仍然需要投入大量时间来标注医学图像。
由约翰·霍普金斯大学布隆伯格杰出教授艾伦·尤尔(Alan Yuille)领导的国际团队提出了一种解决方案:AbdomenAtlas,这是迄今为止最大的腹部CT数据集,包含来自全球145家医院的超过45,000个3D CT扫描,涵盖了142个注释解剖结构——比其最接近的竞争对手TotalSegmentator V2大36倍以上。
该数据集及其应用成果发表在《医学图像分析》杂志上。
以前的腹部器官数据集是由放射科医生手动识别并标注CT扫描中的单个器官,这需要数千小时的人工劳动。
“标注45,000个CT扫描和600万个解剖形状将需要一位专家放射科医生从公元前420年左右——希波克拉底的时代——开始工作,才能在2025年前完成这项任务。”主要作者、惠廷工程学院计算机科学系助理研究员周宗伟(Zongwei Zhou)说。
为了解决这个巨大的挑战,霍普金斯领导的团队使用AI算法大幅加速了器官标注任务。他们与12位专家放射科医生及额外的医学培训生合作,在不到两年的时间内完成了原本需要两千多年才能完成的项目。
研究人员的方法结合了三个在公共标记腹部扫描数据集上训练的AI模型,以预测未标记数据集的注释。通过使用彩色编码的关注图来突出需要改进的区域,该方法识别出模型预测中最关键的部分,供放射科医生进行手动审查。通过重复这一过程——AI预测后进行人工审查——他们显著加速了标注过程,据称肿瘤标注速度提高了10倍,器官标注速度提高了500倍。
这种方法使团队能够在不给放射科医生带来过重负担的情况下,扩大其数据集的范围、规模和精度,从而创建了迄今为止最大的完全注释的腹部器官数据集。他们继续添加更多的扫描、器官以及真实和人工肿瘤,以帮助训练新旧AI模型识别癌性生长、诊断疾病,甚至创建现实患者的数字孪生体。
“通过让AI模型在训练数据有限的领域(如肿瘤识别)之前学习更多相关的解剖结构,我们使AI在某些肿瘤检测任务中的表现类似于普通放射科医生。”第一作者、由艾伦·尤尔指导的计算机科学研究生李文轩(Wenxuan Li)报告说。
AbdomenAtlas还作为一个基准,允许其他研究小组评估其医学分割算法的准确性。霍普金斯的研究人员表示,用于测试这些算法的数据越多,就能更好地保证它们在复杂临床场景中的可靠性和性能。
该团队承诺最终将AbdomenAtlas公开发布,并利用它提出新的医学分割挑战,例如在去年10月举行的第27届国际医学图像计算和计算机辅助干预会议上的BodyMaps挑战。该挑战旨在鼓励不仅在理论上表现良好,而且在临床环境中实际高效且可靠的AI算法。
尽管AbdomenAtlas带来了许多进步,但其创建者指出,该数据集仅占美国每年获取的CT扫描的0.05%,并呼吁其他机构帮助填补这一空白。
“跨机构合作对于加速数据共享、标注和AI开发至关重要。”研究人员写道。“我们希望我们的AbdomenAtlas能够为更大规模的临床试验铺平道路,并为医学影像社区的从业者提供卓越的机会。”
更多信息:李文轩等,《AbdomenAtlas:一个大规模、详细注释、多中心的数据集,用于高效的迁移学习和开放算法基准》,《医学图像分析》(2024)。DOI: 10.1016/j.media.2024.103285
提供方:约翰·霍普金斯大学
(全文结束)

