在医学图像中标注感兴趣区域(这一过程称为分割)通常是临床研究人员在开展涉及生物医学图像的新研究时的第一步。
例如,为了确定患者年龄增长时大脑海马体大小的变化,科学家首先需要在一系列脑部扫描图像中勾勒出每个海马体。对于许多结构和图像类型来说,这通常是一个极其耗时的手动过程,特别是当所研究的区域难以界定时。
为了简化这一过程,麻省理工学院研究人员开发了一种基于人工智能的系统,使研究人员能够通过在图像上点击、涂鸦和绘制框线来快速分割新的生物医学影像数据集。这个新的AI模型利用这些交互来预测分割结果。
随着用户标记更多的图像,他们需要执行的交互次数逐渐减少,最终降至零。此后,该模型可以在无需用户输入的情况下准确分割每张新图像。
之所以能够实现这一点,是因为该模型的架构经过特殊设计,可以利用已分割图像的信息来做出新的预测。
与其他医学图像分割模型不同,该系统允许用户分割整个数据集,而无需为每张图像重复工作。
此外,这种交互式工具不需要预先分割的图像数据集进行训练,因此用户不需要机器学习专业知识或大量的计算资源。他们可以在不重新训练模型的情况下将该系统用于新的分割任务。
从长远来看,该工具可能会加速新治疗方法的研究,并降低临床试验和医学研究的成本。医生也可以使用它来提高临床应用的效率,例如放射治疗规划。
"由于手动图像分割非常耗时,许多科学家可能每天只来得及为他们的研究分割几张图像。
"我们希望这个系统能够通过允许临床研究人员开展以前因缺乏高效工具而无法进行的研究,从而推动新的科学发现,"电气工程和计算机科学专业的研究生、该新工具论文的主要作者哈莉·王(Hallee Wong)说道。该论文已发布在arXiv预印本服务器上。
与她共同撰写论文的还有何塞·哈维尔·冈萨雷斯·奥尔蒂斯(Jose Javier Gonzalez Ortiz)博士(2024届);约翰·古塔格(John Guttag),杜格尔德·C·杰克逊计算机科学与电气工程教授;以及高级作者艾德里安·达尔卡(Adrian Dalca),哈佛医学院和麻省总医院助理教授,同时也是麻省理工学院计算机科学与人工智能实验室的研究科学家。该研究将于10月19日至23日在夏威夷檀香山举行的2025年国际计算机视觉会议上发表。
简化分割流程
研究人员主要使用两种方法来分割新的医学图像集。在交互式分割中,他们将图像输入AI系统,并使用界面标记感兴趣区域。模型根据这些交互预测分割结果。
麻省理工学院研究人员先前开发的一个工具ScribblePrompt允许用户这样做,但他们必须为每张新图像重复这一过程。
另一种方法是开发特定任务的AI模型来自动分割图像。这种方法要求用户手动分割数百张图像以创建数据集,然后训练机器学习模型。该模型预测新图像的分割结果。但是,用户必须为每个新任务从头开始复杂的基于机器学习的过程,并且如果模型出错,无法对其进行修正。
这个新系统MultiverSeg结合了两种方法的优点。它基于用户交互(如涂鸦)预测新图像的分割结果,但同时将每个已分割的图像保留在上下文集合中,以便后续参考。
当用户上传新图像并标记感兴趣区域时,模型会参考其上下文集合中的示例,以更少的用户输入做出更准确的预测。
研究人员设计了该模型的架构,使其能够使用任意大小的上下文集合,因此用户不需要有一定数量的图像。这使得MultiverSeg具有灵活性,可用于各种应用。
"在某些时候,对于许多任务,你不需要提供任何交互。如果你在上下文集合中有足够的示例,模型可以自行准确预测分割结果,"王说道。
研究人员在多样化的生物医学影像数据集合上精心设计和训练了该模型,以确保它具有基于用户输入逐步改进预测的能力。
用户不需要为他们的数据重新训练或定制模型。要将MultiverSeg用于新任务,只需上传新的医学图像并开始标记即可。
当研究人员将MultiverSeg与最先进的上下文内和交互式图像分割工具进行比较时,它在每个基准测试中都表现更优。
点击更少,效果更佳
与其他工具不同,MultiverSeg每张图像所需的用户输入更少。到了第九张新图像,它只需要用户两次点击就能生成比专门为该任务设计的模型更准确的分割结果。
对于某些图像类型,如X光片,用户可能只需手动分割一两张图像,模型就能达到足够准确的水平,从而自行进行预测。
该工具的交互性还使用户能够对模型的预测进行修正,迭代直到达到所需的准确度水平。与研究人员之前的系统相比,MultiverSeg仅需约2/3的涂鸦次数和3/4的点击次数就能达到90%的准确率。
"使用MultiverSeg,用户总是可以提供更多交互来完善AI预测。这仍然极大地加速了流程,因为修正现有内容通常比从头开始更快,"王说道。
展望未来,研究人员希望与临床合作伙伴在现实环境中测试该工具,并根据用户反馈对其进行改进。他们还希望使MultiverSeg能够分割3D生物医学图像。
更多信息:哈莉·E·王等人,《MultiverSeg:具有上下文指导的生物医学影像数据集可扩展交互式分割》,arXiv (2024)。DOI: 10.48550/arxiv.2412.15058
【全文结束】

