CVPR 2024 - SED - A Simple Encoder-Decoder for Open-Vocabulary Semantic Segmentation

这篇文章提出了一种名为 SED 的简单编码器解码器,用于结合 CLIP 的 open-vocabulary 能力实现了开放词汇语义分割。在多个语义分割数据集上的实验证明了 SED 在开放词汇准确性和效率方面的优势。当使用 ConvNeXt-B 时,SED 在 ADE20K 上的 mIoU 得分为 31.6%,并且在单个 A6000 上每张图像只需 82 毫秒。

Note

本文的方法受启发于最近的 CAT-Seg(通过 cost map 微调图像编码器没有损坏 CLIP 的 open-vocabulary 能力),主要差异包括三点:

  1. 本文是一个不需要额外视觉 encoder 的更加简单的框架,同时具有更好的性能和更快的推理速度。
  2. 本文利用分层图像编码器生成 cost map 并且执行跳层融合,这显著提升了性能,并且计算成本与图像尺寸呈线性。
  3. 本文在解码器中引入了一个简单的大核操作,并逐步融合特征,同时设计了一个 category early rejection strategy 来加速推理同时不损害性能。

模型细节

image

SED 方法包括一个 hierarchical encoder-based cost map generation 和一个带有 category early rejection strategy 的 gradual fusion decoder。

Gradual Fusion Decoder Category Early Rejection
image
image

实验设定

Vision Encoder 形式和微调策略的消融 Decoder 结构的消融 早退结构的消融
image
image image
转载请注明出处 (*❦ω❦)