垂体肿瘤周围有重要的神经血管结构,术中识别这些结构可能具有挑战性。我们之前开发了一种能够进行鞍区解剖分割的人工智能模型。本研究旨在应用该模型,并探索人工智能辅助对医生解剖学识别的影响。参与者被要求在六张图像上标注鞍区,首先不使用辅助,然后在人工智能辅助下进行标注。计算了平均DICE分数和包含鞍区质心的注释比例。招募了六名医学生、六名初级培训生、六名中级培训生和六名专家。总体而言,鞍区识别的DICE分数从不使用人工智能辅助的70.7%提高到使用人工智能辅助后的77.5%(+6.7;p<0.001)。医学生使用和受益于人工智能辅助最多,DICE分数从66.2%提高到78.9%(+12.8;p=0.02)。这项技术有潜力增强外科教育,并最终作为术中决策支持工具使用。
引言
垂体肿瘤是最常见的颅内肿瘤之一,位于身体解剖密集区域。这些肿瘤常压迫、扭曲或包裹周围的神经血管结构,如视神经和颈内动脉,通常表现为视觉缺陷等症状。手术通常通过经鼻蝶窦入路进行,在手术过程中,识别和保护这些结构是核心步骤,对于防止伤害至关重要。
术中识别这些结构可以通过解剖标志来帮助,最显著的是蝶骨基底部的这些解剖结构的印记。然而,这些骨性标志变异较大(例如,蝶窦通气和隔板的变化),并且常被肿瘤,尤其是巨大腺瘤扭曲,使术中解剖定位变得困难。同样,之前的颅底手术、放射治疗或并发鼻窦疾病也可能扭曲局部结构,增加这一挑战。
近年来,经鼻蝶窦手术经历了多项技术进步,其中许多有助于术中导航和保护周围关键组织。首先,内窥镜方法改善了长鼻道末端的视野宽度。然而,大多数内窥镜是二维的,因此缺乏深度感知。同样,图像引导手术系统或神经导航系统的应用基于术前影像协助解剖定位,但不考虑术中组织移位。此外,微多普勒(用于识别动脉/静脉结构)和神经生理监测(如视神经监测)可在某些情况下使用,其优点是实时,但需要额外的设备和专业知识。
最近,计算机视觉和机器学习(特别是深度学习)越来越多地用于分析手术视频数据和识别手术步骤、解剖结构和器械。这项技术有可能实现实时,并无缝集成到现有的手术工作流程中。自动识别鼻部结构已有所探索,但尚未实现对关键鞍区和旁鞍区结构的识别。我们之前开发了一种临床前人工智能模型,能够准确识别鞍区解剖结构。在这项临床前IDEAL(想法、开发、探索、评估、长期研究)阶段0研究中,我们试图应用该人工智能模型,并评估其作为临床医生在内镜垂体腺瘤切除术中解剖结构识别的AI助手的性能。
结果
一般特征
共有24名参与者参加了这项临床前比较研究,包括六名医学生、六名初级神经外科培训生、六名中级培训生和六名专家(17名男性,7名女性)来自单一三级神经外科中心。
人类独立与AI辅助解剖学识别的比较评价
仅考虑鞍区质心(而不是识别整个鞍区)时,大多数参与者在没有AI辅助的情况下将其包含在其注释中(19/24名参与者,79.2%),使用AI辅助后显著提高到24/24(100%)(p=0.025)(表1,图1)。医学生和初级培训生的改进最为明显,每组中有4/6名参与者在没有AI辅助的情况下识别鞍区质心,而在AI辅助下,每组中的6/6名参与者都识别了质心(+33.3%;p=0.157)。中级培训生的改进不太显著(AI辅助前5/6名参与者,AI辅助后6/6名参与者;p=0.317)。所有专家在有无AI辅助的情况下都能识别鞍区质心。
表1 包含鞍区质心的注释比例
全尺寸表格
图1:每个子组在AI辅助前后对六张图像的鞍区注释热图。
注释之间高度一致的区域用黄色表示,表明子组内参与者鞍区注释的显著重叠。为了提供上下文,显示了真实标签(白色边框)和AI建议标签(黑色边框)的轮廓。比较各子组在AI辅助前后的热图总结了AI辅助后空间变化的情况。
全尺寸图片
关于整个鞍区的识别,没有AI辅助的情况下,专家的DICE分数最高(73.4%,标准差7.8),其次是初级培训生(72.1%,标准差13.6),中级培训生(71.6%,标准差18.0)和医学生(66.2%,标准差13.0)(表2)。总体而言,所有子组的鞍区识别都有所提高,从没有AI辅助的DICE分数70.7%提高到有AI辅助的77.5%(+6.7;p<0.001)。医学生从没有AI辅助的DICE分数66.2%提高到有AI辅助的78.9%(+12.8;p=0.02),受益最大。初级培训生的提高幅度第二高,从没有AI辅助的DICE分数72.1%提高到有AI辅助的80.1%(+8.1;p<0.001)。中级培训生从没有AI辅助的DICE分数71.6%提高到有AI辅助的76.3%(+4.8;p=0.001)。专家的提高最小,从没有AI辅助的DICE分数73.4%提高到有AI辅助的74.5%(+1.2;p=0.032)(表2)。
表2 整个鞍区识别的平均DICE分数(有无AI辅助)
全尺寸表格
总体而言,144个鞍区注释中有76个(53.8%)在AI辅助后进行了更改。医学生和初级培训生更有可能在AI辅助后更改其注释,25/36(69.4%)个注释进行了更改,而中级培训生12/36(33.3%)个注释进行了更改,专家14/36(38.9%)个注释进行了更改。检查这些鞍区注释更改的正负影响显示,学生再次最有可能通过AI提高DICE性能(66.7%的图像),但也最有可能通过AI降低性能(22.2%的图像),11.1%的图像性能没有变化。相反,专家最不可能在AI辅助后改变性能(47.2%的图像),尽管他们的性能只在36.1%的图像上有所提高,但在AI后性能下降最少(16.7%的图像),与高级培训生持平。这些高级培训生在16.7%的图像上也降低了AI辅助后的性能,但在大多数图像上提高了(38.9%)或没有改变性能(44.4%)。中级培训生在AI辅助后在61.1%的图像上有所提高,在19.4%的图像上没有变化,在19.4%的图像上有所下降。
总体而言,AI辅助减少了所有组别的假阳性和假阴性错误,假阳性减少的幅度大于假阴性,除了学生组(表3)。图1显示了AI辅助对假阳性和假阴性错误的空间影响在各子组中的情况。
表3 全鞍区识别的假阳性和假阴性错误分析(AI辅助前后)
全尺寸表格
讨论
我们首次展示了人类独立与AI辅助内镜垂体腺瘤手术术中解剖学识别的比较研究。发现AI辅助可以提高不同水平的解剖学识别能力。同样,AI辅助似乎减少了假阳性和假阴性错误的发生率,支持其提高手术安全性的潜力。假阳性错误减少的幅度更大,这是令人放心的,因为在临床上这些错误更加危险,例如,可能导致意外损伤关键非鞍区结构(如颈动脉)通过错误地将其识别为鞍区安全进入区的一部分。
手术安全依赖于术中解剖结构的识别和清晰划分。在垂体手术中,这种解剖识别有助于安全打开和进入鞍区,并能够在不损害关键神经血管结构的情况下最大限度地安全切除肿瘤。然而,这种解剖识别往往具有挑战性——这反映在现代实践中使用的多种辅助工具,如神经导航和微多普勒。基于视觉的实时、AI驱动的解剖结构增强现实显示可能是有用的工具,与现有辅助工具协同使用,以提高手术解剖识别和手术安全性。这可以作为术中决策支持工具,按需显示解剖预测或作为警告系统,潜在地减少肿瘤进入和切除过程中的附带损害(如颈动脉损伤)。
AI辅助的最大受益者是非专家群体,其受益程度与经验水平成反比,无论是识别鞍区中心还是总面积。医学生使用和受益于AI辅助最多,其次是初级培训生和高级培训生,其AI辅助下的表现相当于专家。这突显了在这种情境下使用此类技术进行培训的潜力。解剖结构的知识和识别是外科培训的核心,但大多数资源集中在精选和策划的解剖和图示上,用于教育,越来越多地使用AI自动标记解剖结构以增强从这些材料中获得的教育效果。在这里,我们展示了使用AI在当代手术图像上显示解剖结构,面对日常解剖识别挑战(如出血、模糊、仪器遮挡)。离线时,这可以生成真实世界手术解剖的索引图像,供培训生在手术前使用以提高其解剖识别技能。同样,这可以纳入程序特定的教育评估。此外,随着AI模型性能的进一步改进,并结合增强现实技术,这种解剖识别覆盖可以在术中实时显示给培训生,以补充其实践中的学习。
此外,专家神经外科医生使用AI辅助最少,使用AI辅助时改进最少,且最不可能在使用AI辅助后降低性能。对于检测鞍区中心(即安全进入区),专家在AI辅助前的识别率为100%。然而,当识别更广泛的鞍区区域,包括边界和与周围结构的接口(这可能是一个更难的任务)时,专家达到了73.4的DICE分数,仅略有但统计学上显著的提高到74.5(p=0.032)。这可能是因为他们没有AI时的基线表现已经很高;因此,任何获得的好处都是边际的。或者,这可能表明专家不如经验较少的临床医生信任AI辅助——要么忽略AI建议(在61%的图像中),要么在使用AI辅助时对注释进行最小更改。确定这一点的确切原因超出了本研究的范围;然而,在该技术的持续开发中,结合人因分析(特别是信任和可用性)将是至关重要的,即使在AI自主性的最低级别也是如此。
在更广泛的研究文献中,手术解剖识别是正在发展的领域,建立在诊断图像(如放射学)分析的基础上。大多数AI模型使用监督深度学习方法,主要应用于大部分手术过程使用内窥镜或显微镜(允许视频记录)的手术。这项技术在腹腔镜手术中的迅速扩展得益于多个公开视频数据集、开源算法和协调的社区挑战。在腹腔镜胆囊切除术中,一些AI模型可以比专家外科医生更准确和更早地识别解剖结构(如共同胆管)和安全手术区域。腹腔镜手术领域在结直肠、泌尿科和妇科应用中也出现了类似的AI模型解剖识别进展。类似地,内镜下内窥镜程序中也有许多AI驱动的解剖分析示例,例如逆行胰胆管造影中的乳头识别和喉镜和支气管镜检查中的实时声带识别。另一个显著的例子是在结肠镜检查中的息肉检测,实现了各种难度案例的准确识别,优于专家,并随后转化为临床实践中的决策支持工具。在垂体手术中,计算机视觉工作集中在手术步骤和阶段的识别上,有一项研究探索了鼻部解剖识别,另一项研究探索了肿瘤识别。未来,许多这些应用将集成在一起(例如,改进的解剖识别可能会提高步骤识别,反之亦然),并将与其他技术(如增强现实)接口,用于各种潜在的临床应用。
这项临床前比较研究有许多优势。首先,据我们所知,这是第一项比较AI驱动决策支持工具用于颅底解剖识别的研究。此外,我们采用交叉设计匹配研究组的基本特征,并获得了具有不同经验水平的多样化临床样本。然而,这项工作也有许多局限性。我们的评估仅限于学术教学医院环境中每名24名参与者各6张图像,未来的研究应包括更多参与者,跨多个中心,尽可能进行更大规模的评估。此外,所有鞍区预测目前都是离线的,基于静态图像,未来的迭代将使用更大的数据集和改进的AI模型,重点是在实时视频上显示这种AI识别,用户界面针对外科医生的需求进行定制,并涵盖安全、有效性和效率的指标。
总之,在这项临床前比较研究中,我们展示了AI辅助在内镜垂体手术中对医学生、培训生和专家的颅底解剖识别的效用。用户的使用经验越少,从AI辅助中获得的益处越大,无论是在提高性能还是安全性方面。通过AI辅助,培训生能够达到专家级别的解剖识别能力。因此,这项技术有潜力用于增强外科教育,无论是离线审查还是实践中的实时学习。进一步的工作需要改进实时模型性能、显示用户界面的整合以及其他解剖识别辅助工具,以便最终作为术中决策支持工具使用。
(全文结束)

