生成式分类
CytoDiffusion分类器能精准识别多种血细胞形态,并检测可能指示疾病的异常或罕见血细胞。对角线网格元素显示各类细胞的原始图像,非对角线元素则呈现热力图,揭示模型的决策逻辑。(图片提供:Simon Deltadahl)
血细胞的形状与结构是诊断和管理血液疾病的关键指标。然而在显微镜下识别细胞外观的细微差异需要经过多年训练的专家技能,这促使研究人员探索人工智能能否自动化这项繁重任务。一支英国主导的研究团队现已开发出基于生成式人工智能的CytoDiffusion模型,其在血细胞形态学表征方面的准确性和可靠性超越人类专家。
传统判别式机器学习模型在将血样细胞分类至预设类别时可达到人类水平。但依赖专家标注学习的判别模型难以应对前所未见的细胞类型,且对不同显微镜和染色技术产生的图像适应性差。
为解决这些缺陷,该团队(由剑桥大学、伦敦大学学院和伦敦玛丽女王大学主导)基于扩散生成式人工智能分类器构建了CytoDiffusion。该模型不仅学习区分细胞类别,更完整模拟血细胞形态谱系,实现精准分类的同时具备强大的异常检测能力。
研究团队表示:"我们的方法旨在打造具有超越人类精确度、灵活性和元认知能力的模型,以捕捉所有可能的形态学表征分布。"
真实性和准确性
人工智能分析要应用于临床,关键在于使用者对模型学习表征的信任度。为验证CytoDiffusion能否有效捕捉血细胞图像分布,团队用其生成合成血细胞图像。经验丰富的血液学家分析发现,这些合成图像与真实图像几乎无法区分,证明该模型真正掌握了血细胞形态分布规律,而非依赖伪影捷径。
研究团队使用多个数据集开发和评估扩散分类器,包括含近3000张血涂片50余万匿名细胞图像的自定义数据集CytoData。在标准分类任务中,CytoDiffusion达到业界领先水平,表现优于或等同于传统判别模型。
血涂片样本的有效诊断还需检测罕见或全新细胞类型的能力。团队评估了CytoDiffusion在测试数据集中检测原始细胞(与白血病等血液恶性肿瘤相关的未成熟血细胞)的性能,高检测敏感度对减少假阴性至关重要。
在某数据集中,CytoDiffusion检测原始细胞的敏感度和特异性分别达0.905和0.962,而判别模型敏感度仅为0.281。在以成红细胞为异常细胞的数据集中,CytoDiffusion再次胜出,证明其能检测训练数据中未出现的异常细胞类型,且具备临床应用所需的高敏感度。
稳健模型
分类模型必须适应不同成像条件,并能在临床常见的有限训练数据下运行。在跨医院、显微镜和染色流程的多样化图像数据集上训练测试时,CytoDiffusion始终达到业界最高精度。同样,在每类仅10、20、50张图像的有限子集训练后,其表现持续优于判别模型,尤其在数据最稀缺的条件下优势显著。
临床分类任务的核心要素是决策不确定性评估能力。研究团队开发了不确定性评估框架,证实CytoDiffusion的不确定性估计优于人类专家。量化不确定性后,高置信度案例可自动处理,存疑案例则标记交由人工复核。
剑桥大学首席作者Simon Deltadahl在新闻声明中表示:"测试其准确性时,系统略优于人类。但真正突出的是其识别不确定性的能力。我们的模型绝不会在错误时声称确定,而人类有时会犯此错误。"
该团队还演示了CytoDiffusion生成热力图的能力,该图可标出需修改以实现图像重分类的关键区域。此功能揭示模型决策过程,表明其理解相似细胞类型的细微差异。这种透明性对人工智能的临床部署至关重要,使从业者能验证分类是否基于合法的形态学特征。
伦敦大学学院共同资深作者Parashkev Nachev补充道:"医疗人工智能的真正价值不在于以低成本模拟人类专长,而在于提供超越专家或简单统计模型的诊断、预后及处方能力。"
CytoDiffusion相关成果已发表于《自然·机器智能》期刊。
【全文结束】

