德黑兰(塔斯尼姆通讯社)——麻省理工学院的一项新研究揭示,广泛使用的视觉-语言模型在处理否定词(如“不”和“没有”)时存在困难,这可能在检索必须包含某些特征但排除其他特征的医疗图像时导致严重错误。
麻省理工学院的研究人员发现,视觉-语言模型通常将否定词视为随机噪声,在被指示查找不包含特定对象的图像时,其表现并不比随机猜测好。
这种失败可能会误导临床医生。例如,放射科医生在寻找显示组织肿胀但心脏未扩大的胸部X光片时,可能会检索到同时具有这两种情况的病例,从而影响诊断结果。
“这些否定词可以产生非常重要的影响,如果我们盲目地使用这些模型,可能会导致灾难性的后果,”该研究的主要作者、麻省理工学院研究生库梅尔·阿尔哈穆德说。
在实验中,研究团队首先测试了现有模型在涉及否定词的图像字幕检索任务中的表现,发现当字幕中包含“不”或“没有”等词语时,准确率下降了近25%。
接下来,他们评估了多项选择题任务,其中模型需要选择正确否定或肯定某个对象存在的字幕;表现最好的模型仅达到了约39%的准确率,有些甚至低于随机猜测。
作者将这些不足归因于“肯定偏见”,即模型简单地忽略了否定词,只关注训练数据中的正面标签。
“到目前为止,图像-字幕数据集从未包含像‘一只狗跳过栅栏,没有直升机’这样的例子,”麻省理工学院电子工程与计算机科学系副教授马尔齐赫·加塞米解释道。
为了解决这一问题,研究人员通过大型语言模型生成了一个包含1000万对图像-字幕的数据集,并在此基础上对视觉-语言模型进行了微调。
经过训练后,图像检索性能提高了约10%,多项选择题准确率提高了约30%,表明数据增强可以在一定程度上缓解这个问题。
“但我们的解决方案并不完美,”阿尔哈穆德警告说,指出这种方法只是增强了字幕,而没有重新设计模型架构。
研究团队敦促从业者在部署前严格测试视觉-语言模型处理否定词的能力,特别是在医疗或制造等高风险领域。
未来的工作可能涉及解耦文本和图像处理,或为关键应用创建专门的否定词意识数据集。
该研究由Shaden Alshammari, Yonglong Tian, Guohao Li, Philip H.S. Torr 和 Yoon Kim共同撰写,将在计算机视觉和模式识别会议上发表。
(全文结束)

