一种新的人工智能(AI)工具的研发突破,为医生和研究人员训练医学影像软件提供了更便捷且经济的解决方案——即使仅掌握少量患者扫描数据也能实现精准分析。
这项AI工具改进了医学图像分割技术,该技术通过标记图像中每个像素代表的组织类型(如癌变或正常组织)来辅助诊断。目前这项工作主要依赖高精度专家标注,深度学习技术虽展现出自动化潜力,但其训练需要大量逐像素标注的图像数据。加州大学圣地亚哥分校电气与计算机工程系博士生李张(Li Zhang)解释道:"创建这类数据集需要大量专业人力、时间和成本,且许多疾病和临床场景根本无法获取足够数据。"
由该校彭涛·谢(Pengtao Xie)教授带领的研究团队开发的GenSeg系统,通过创新性端到端数据生成框架,实现了从极少量专家标注样本中学习图像分割。该技术将传统方法所需的训练数据量减少至多20倍,有望推动开发更快速且经济的诊断工具,特别是在医疗资源有限的机构应用潜力巨大。研究成果已发表于《自然通讯》。
李张表示:"该项目的诞生正是为了解决医学图像分割领域的数据瓶颈问题,使强大的分割工具能在数据稀缺的场景中更实用化。"
该AI工具在多种医学图像分割任务中接受测试,成功识别了皮肤镜图像中的皮肤病变、超声波扫描中的乳腺癌、胎儿镜图像中的胎盘血管、结肠镜图像中的息肉,以及普通相机拍摄的足部溃疡等。研究还扩展到3D影像应用,包括海马体和肝脏的三维映射。
在标注数据极度有限的情况下,该工具的模型性能相比现有方法提升10-20%。相比传统方法,其所需真实训练数据减少8-20倍,且性能往往相当甚至更优。
李张举例说明该技术的应用前景:皮肤癌诊断时,专家无需标注数千张图像,只需标注约40个样本即可。AI工具将利用这些小数据集实时分析患者皮肤镜图像中的可疑病变,"这将帮助医生实现更快速且精准的诊断"。
该系统通过多阶段工作流实现突破:首先从分割掩码学习生成合成图像(分割掩码是用颜色编码标注健康或病灶区域的叠加图层),随后利用这些知识生成新的"图像-掩码"对来扩充真实数据集,最终通过混合训练提升分割模型性能。持续的反馈循环机制使系统能根据学习效果优化生成图像。
"将数据生成与分割模型训练整合是系统成功的关键,"李张强调,"这种闭环设计确保生成的合成数据不仅逼真,还能精准提升模型的分割能力。"
研究团队计划进一步提升系统的智能化程度和应用多样性,并计划整合临床医生的直接反馈来优化数据生成过程,使其更贴近真实医疗需求。
更多相关信息:李张等,《自然通讯》(2025),DOI:10.1038/s41467-025-61754-6
【全文结束】

