专家称,这一发现是"重要里程碑",在AI尚未证明临床应用价值的领域
一项非劣效性、验证性、观察性研究表明,人工智能(AI)系统在常规CT扫描中检测胰腺导管腺癌(PDAC)的表现优于放射科医生。
荷兰奈梅亨拉德堡德大学医学中心的娜塔莉亚·阿尔维斯(Natalia Alves)硕士及其同事报告称,在包含1,130名患者的测试队列中,AI系统在受试者工作特征曲线下面积(AUROC)达到0.92(95% CI 0.90-0.93),在最佳ROC阈值下,敏感性和特异性分别为85.7%和83.5%。此外,在391名患者的子集中,与AUROC为0.88(95% CI 0.85-0.91)的放射科医生群体相比,AI系统在检测PDAC方面达到了统计学上非劣效(P<0.0001)和更优(P=0.001)的表现,他们在《柳叶刀肿瘤学》上指出。
在匹配的敏感度水平下,AI系统将假阳性数量减少了38%(AI为85例,而医生为138例)。
阿尔维斯及其团队写道:"据我们所知,PANORAMA研究是首个配对的、国际性的、验证性诊断准确性研究,用于评估放射科医生和独立AI系统在对比增强CT上检测PDAC的性能,使用FAIR(可查找、可访问、互操作和可重用)基准。我们的研究结果表明,在大型多样化数据集上训练的AI可以在常规对比增强CT上检测PDAC方面超过平均放射科医生的表现,为监管对话和前瞻性验证提供了基础。"
荷兰埃因霍温卡塔琳娜医院的米莎·卢耶(Misha Luyer)医学博士在同期评论中指出,AI表现优于放射科医生的发现是"一个重要的里程碑,因为在这一领域,许多AI工具仍需证明其临床应用价值。"他补充说,AI可能帮助更早、更准确地诊断胰腺癌,这一点尤为重要,"因为早期诊断非常困难,延误非常有害,而且各医院之间的放射学专业知识差异很大。"
卢耶还指出,AI在减少假阳性方面的成功应该能缓解人们对不必要的后续检查和患者焦虑增加的担忧。
他写道:"将这些有希望的结果转化为日常临床实践将是下一个关键步骤。"
PANORAMA研究由两个平行部分组成——AI大奖赛和多读者、多病例观察者研究。
在AI大奖赛中,国际AI开发团队使用多中心公共数据集为模型训练和调整创建了用于CT上PDAC检测的算法。这些算法以标准化、预先指定的性能指标进行掩蔽评估。多读者、多病例观察者研究包括来自12个国家40个中心的68名放射科医生,他们都具有阅读腹部CT扫描的先前经验。
总的来说,该研究涉及来自五个参与中心和两个公开数据集的3,440名患者(56%为男性,中位年龄67岁),包括来自荷兰和美国四家三级护理中心的2,310名患者队列(用于训练[n=2,224]和调整[n=86]),以及来自荷兰、瑞典和挪威五家三级护理中心的1,130名患者(406名经组织学确诊的PDAC患者)的隔离队列用于测试。
放射科医生从隔离队列中391例(144例PDAC)的子集读取图像。
阿尔维斯及其同事承认该研究存在局限性,特别是它是在受控的在线环境中进行的,"这并不能完全复制临床环境中的细微决策过程,在临床环境中,获取先前的影像、临床笔记和实验室数据有助于解释。"
他们观察到,本研究的重点是区分PDAC与其他胰腺异常,未来的研究还应解决恶性胰胆管肿瘤的鉴别诊断,"反映日常临床实践的更广泛范围。"
【全文结束】

