我们的目标是开发一种能够在胃肠手术中实时识别并显示疏松结缔组织(LCT)作为可分离层的AI模型,并评估其性能,包括临床应用的可行性。训练数据是在胃肠外科医生的监督下创建的。测试图像和视频随机抽样,模型性能由10位外部胃肠外科医生通过视觉评估。50张图像的平均Dice系数为0.46。AI模型在91.8%的图像中(459/500次响应)检测到至少75%的疏松结缔组织。52.6%的图像中存在假阳性,但大多数假阳性被认为不足以影响手术判断。当比较外科医生的手动标注与AI预测图像时,5位外科医生认为AI图像更接近他们的认知。在同时观看AI预测视频和原始视频时,外科医生认为99%的AI视频中,可视化效果有所改善,观看AI预测显示的压力水平是可以接受的。开发的AI模型表现接近胃肠外科医生的水平。这种安全可分离层的可视化可能有助于减少术中认知错误和手术并发症。
背景方面,尽管学术和技术的进步提高了外科护理的质量,但手术并发症仍然是一个主要问题。根据一份关于手术中人类绩效错误的报告,30%的手术不良事件是由外科医生的认知错误引起的。近年来,医学中支持性使用人工智能(AI)取得了显著进展,各种诊断支持设备已经报告和商业化。这些AI工具本身不是为了提供诊断,而是为了支持医生的决策和技能执行。为了减少手术护理中的并发症,支持外科医生认知技能的技术解决方案是理想的。支持外科医生进行内窥镜或机器人手术的AI医疗设备仍处于初级阶段,开发正在进行中。我们之前成功报告了AI对疏松结缔组织(LCT)的成功识别。然而,之前的研究所评估的LCT识别准确性仅限于机器人胃切除术,且模型未达到临床应用所需的性能。
在此研究中,我们改进了之前的AI模型,使得LCT可以在胃切除术、结直肠手术和腹股沟疝修补术等常见胃肠和普通外科手术中被识别并显示为一个安全可分离的层。我们报告了该模型的性能,包括其临床应用的可行性。
方法上,我们通过训练超过30,000个从多个日本医院2018年至2022年间拍摄的内窥镜手术视频片段中标注的LCT纤维,增强了我们之前描述的AI模型。这些手术包括26例胃切除术、15例结直肠手术、16例腹股沟疝修补术和其他3例手术。我们使用了Incubit Inc.(东京,日本)提供的网络应用程序进行标注过程。在回顾了我们之前研究中使用的训练数据后,LCT纤维的标注更加精确和统一。七位胃肠外科医生和受训的标注人员在医生的监督下仔细标注了图像中的LCT区域,以创建训练数据。我们基于U-net和DeepLab v3调整了AI模型。然后开发了自动分割LCT纤维的AI模型。
为了确保评估过程的公平性,成立了独立的外部委员会。委员会由外部胃肠外科医生和合同研究组织组成,后者负责与外部外科医生沟通并监督研究。外部委员会根据本研究的标准选择了用于评估的视频场景和图像。为了创建测试数据集,从2022年在日本多家医院使用两种内窥镜成像系统(VISERA ELITE II®,Olympus Inc.,东京,日本;da Vinci Xi Surgical System®,Intuitive Surgical Inc.,森尼韦尔,加利福尼亚州)拍摄的手术过程中随机选取了10例胃切除术、10例结直肠手术和5例腹股沟疝修补术。这些测试数据未包含在训练数据中。从每个25个视频中提取两个清楚显示LCT的帧,共获得50张静态图像。我们包括了明确展示图像中心存在LCT的评价图像。相反,排除了因出血、烟雾或伪影导致LCT不清晰可见的图像,以及由于炎症或先前治疗导致LCT退化的图像。此外,排除了手术过程不顺利的评价场景。
外科医生的标注是一个通过手动标注明确划分正确LCT区域的图像,反映了外科医生的认知。外部外科医生在未确认AI预测图像的情况下标记了原始图像中LCT区域的轮廓。研究团队严格按照外科医生的标记绘制LCT纤维区域。绘制完成后,外部外科医生检查了标注区域。如果外部外科医生认为需要修改标注,研究团队会重新绘制。这个过程重复进行,直到不再需要进一步修改。在外部外科医生决定标注区域后,另一名外科医生以相同方式检查,重复相同的过程。外科医生的标注通过手动标注并获得外部外科医生的批准后最终确定。
AI模型性能的评估方法包括比较原始图像、AI预测图像和外科医生的标注,使用以下四种方法(图1)。定量计算评估静态图像时,外科医生的标注由外部评估委员会的三位外科医生达成共识。使用广泛用于医学图像分析的Dice系数评估AI预测图像与外科医生标注之间的相似性。设定的阈值为0.5。召回率用作检测LCT的指标。Dice系数和召回率的公式如下,较高值表示更好的结果:
Dice = ( \frac{TP}{TP + \frac{1}{2}(FP + FN)} ),Recall = ( \frac{TP}{TP + FN} )
其中,TP为真阳性,FP为假阳性,FN为假阴性。
为了准确评估外科医生的认知与AI预测之间的一致性,10位外部外科医生通过视觉比较原始图像和AI预测图像,以确定AI预测的性能。这种方法是因为在临床环境中,单纯依靠Dice系数作为一致性的衡量标准难以确定和解释。未参与标注过程的外科医生进行了视觉评估。他们评估了AI预测的一致性率以及AI过度检测的性质,使用了与计算评估相同的50张静态图像。
外科医生比较了两组对应的图像,每组包括原始图像和AI预测图像,并在5分制评分表上回答以下问题:对于AI一致性评分,“AI是否识别出您认为是LCT的相同结构?”;对于AI过度检测,“如果AI将您认为不是LCT的结构识别为LCT,以下哪项最能描述这种假阳性的性质?”(假阳性但影响微乎其微;假阳性但不影响手术判断或程序;假阳性对手术判断和程序有轻微影响;假阳性对手术有不可接受的负面影响)。
为了比较AI预测与外科医生的认知,额外进行了AI预测图像和外科医生标注的比较评估。创建了两组手动标注,一组由三位外部外科医生创建,对应外科医生的标注,另一组由我们的研究团队独立创建。外部评估委员会的10位外科医生在不知晓哪张图像是AI预测图像的情况下,选择了最接近和最远离他们自己认知的图像。排除了容易识别为AI预测的明显假阳性图像后,评估了一半的50张图像。
在受控实验室环境中,10位外部外科医生观看了两个并排显示的屏幕,一个显示原始视频,另一个显示AI预测视频。他们被要求评估实时查看AI分析结果对可视化和压力水平的影响。测试视频由总共25个案例中随机选择的10个案例组成,每个持续30秒。外科医生仔细审查了显示屏上的原始和AI预测视频,并在5分制评分表上回答了以下问题:对于AI支持认知的能力,“查看AI分析显示是否更容易识别LCT区域?”;对于观看AI预测显示引起的压力水平,“AI分析显示是否会因假阳性、假阴性或叠加显示给您带来压力?”
整体方法流程如图1所示。
结果方面,静态图像的定量计算评估显示,平均Dice系数为0.46(标准差±0.10,范围0.16-0.62),平均召回率为0.53(标准差±0.13,范围0.23-0.78)。内窥镜系统和手术领域的分析准确性变化在10%以内(表1)。
视觉评估比较原始图像和AI预测图像时,视觉评估响应率为100%。平均AI一致性评分为4.62(标准差±0.67)。如表2所示,在71.4%的病例中,超过90%的LCT被检测到(评分5),在91.8%的病例中,超过75%的LCT被检测到(评分4或5)。平均总体AI一致性评分为4.62。按手术领域划分,胃得分为4.65,结肠得分为4.62,腹股沟疝得分为4.59。按内窥镜系统划分,VISERA ELITE II®得分为4.66,da Vinci Xi Surgical System®得分为4.56。在所有图像中,47%没有假阳性。如表3所示,在96%的图像中,外科医生回答说AI预测的假阳性不会影响手术(评分3或更高)。
图2显示了具有高(A-C)和低(D-F)性能评分的代表性原始图像、外科医生的标注和AI预测图像。高分AI预测图像准确检测了LCT,难以与外科医生的标注区分。相比之下,低分AI预测图像包含假阳性和假阴性。然而,所有外科医生回答说,手术器械的假阳性不会对手术产生负面影响(评分3、4或5)。
比较外科医生的标注与AI预测图像的评估集中在25张提供的图像中最接近或最远离外科医生自身认知的图像。外科医生被告知不要对难以评估的图像作出回应。表4显示,10位外科医生中有5位认为AI预测图像更接近他们的认知,而7位认为它们最远离。为了验证训练数据的真实性,对外科医生的研究团队创建的标注与外部外科医生创建的标注进行了比较分析。外科医生的研究团队创建的标注在最接近和最远离外科医生认知的图像中率较低。因此,很难确定哪张图像是优越的。
表5显示,外科医生判断AI支持帮助了LCT识别,99%的病例(评分2或更高)。表6显示,在57%的病例中,观看AI显示器不会引起压力(评分5),而在99%的病例中,它引起了可接受的压力水平(评分3或更高)。
补充信息中的视频1显示了并排的原始视频和AI预测视频。在腹股沟疝修补术、直肠切除术和胃切除术中,AI识别LCT并用青色突出显示。AI在腹股沟疝修补术中准确显示了精细的LCT纤维,视觉评估得分很高。虽然在直肠切除术中一些明显的手术器械假阳性显而易见,但我们认为这不会对医生的判断产生负面影响。在胃切除术的一个场景中,视觉评估得分相对较低。
讨论部分,胃肠外科医生视觉评估了我们最新AI模型的性能,确定其在91.8%的评估图像中能够检测到至少75%的LCT。52.6%的图像中发现了假阳性。然而,大多数假阳性并不足以影响手术判断或操作。假阳性主要位于手术器械区域或LCT明显不存在的区域,不会导致外科医生混淆。此外,当AI预测图像与外科医生的标注进行比较时,AI预测图像具有相当的准确性。因此,我们的AI模型在图像限于没有明显假阳性的条件下,达到了与经验丰富的胃肠外科医生相当的准确性。
在定量评估中,整体平均Dice系数为0.46。按内窥镜系统或手术领域分析显示,Dice系数相似。包括来自胃、结肠、腹股沟疝和两种类型内窥镜系统的训练数据的AI模型显示出一致的准确性。几项研究调查了机器学习用于识别解剖结构的情况。大多数这些研究使用Dice系数或IoU(交并比)来评估AI模型的性能。然而,这些定量评估方法的准确性取决于目标结构正确区域的像素数量以及创建真实标签的方法。因此,仅依赖定量值解释解剖结构是否准确反映可能会有挑战。Dice系数在目标正确区域像素较少时往往较低。本研究也发现外科医生的标注像素数量与Dice系数呈正相关(数据未显示)。
为了克服这一局限性,我们的方法是让外科医生视觉检查和比较AI预测与其自身的认知。通过将AI预测图像与外科医生确定的参考标注进行比较,我们证明AI能够以与外科医生相当的准确性识别LCT。此外,研究团队确定的参考标注与外部外科医生确定的参考标注之间没有优劣之分,表明训练数据的准确性。
我们还在类似于真实环境的模拟环境中使用视频进行了验证。评估了可视化和压力水平,以确定使用开发的AI的有效性和安全性。大多数外科医生判断LCT的可视化有所改善,使用过程中要么没有压力,要么压力在可接受范围内。这些结果表明,当前的AI模型可以预测LCT,其准确性与经验丰富的外科医生相当,并且可以在不引起过多压力的情况下增强可见性。
我们的AI模型有两个预期的好处:一是防止误认,二是术中教育支持。即使对于可以轻松识别解剖结构的专家外科医生,他们在手术中的身体和心理状况也会影响他们的认知能力,有时会影响他们的判断。一项关于无意盲视的研究表明,当对象可以被视觉感知但注意力未集中在其上时,可能会不被识别。在一项实验中,24名放射科医生被要求在胸部CT扫描中检测肺结节。当嵌入图像中但未告知放射科医生的是一只比平均肺结节大48倍的“大猩猩”时,83%的放射科医生未能识别出大猩猩,尽管眼动追踪证实60%的放射科医生实际上查看了包含大猩猩的区域。这些发现表明,即使是专家也容易受到无意盲视的影响。希望像我们AI模型提供的AI支持意识可以成为预防手术中无意盲视等认知错误的一种手段。经验丰富的外科医生会有这样的经历,即通过训练或意识,他们能够识别以前无法识别的东西。使用可以着色解剖结构的AI有可能加速实习外科医生的认知掌握。
本研究有几个局限性。首先,在本研究时,AI模型是一种未经批准的医疗器械,仅用于研究目的。重要的是要注意,认知支持和压力的影响是在模拟环境中评估的,而不是在实际手术中。其次,我们排除了测试数据集中出血严重无法清楚显示LCT的图像,以及由于炎症或先前治疗导致结构退化的图像。我们认为,要进一步改进和验证,以便我们的AI应用于不典型和极具挑战性的手术。第三,比较AI预测图像与外科医生标注的评估是在首先排除了明显假阳性的AI预测图像之后进行的。需要注意的是,AI生成的假阳性可能包含人类不会犯的错误,尽管本研究中看到的那些假阳性对手术不会有强烈负面影响。
这种AI模型的临床应用可以通过提供视觉表示LCT的彩色编码显示来支持更安全的手术,突出可分离层。未来,我们计划在临床实践中应用这种AI模型,以验证其对手术结果的影响。
结论部分,开发的AI能够在从胃切除术、结直肠手术和腹股沟疝修补术中获得的图像中识别LCT,其准确性接近胃肠外科医生。这种LCT的可视化,作为一种可分离层,可能有助于减少术中认知错误和手术并发症。
(全文结束)

