CVPR 2024 - OVFoodSeg - Elevating Open-Vocabulary Food Image Segmentation via Image-Informed Textual Representation

主要内容

大量食材之间的类别差异、新食材的出现以及与大型食物分割数据集相关的高注释成本。现有方法主要采用封闭词汇和静态文本嵌入设置,往往无法有效处理食材,特别是新颖和多样化的食材。为此本文提出了一种新的开放词汇食品图像分割(Open-Vocabulary Food Image Segmentation)框架 OVFoodSeg,通过采用图像感知文本表示来提升开放词汇食品图像分割的能力。这一任务和框架旨在解决现有方法在处理新和多样化的食材时的不足。

在整合视觉语言模型 CLIP 的基础上,为了处理食物配料视觉表征中大的类内方差,该方法集成了两个创新模块,即图像到文本学习器 FoodLearner 和图像感知的文本编码器 Image-Informed Text Encoder,丰富了文本嵌入与图像特定的信息,从而有效地将知识从已知的食材转移到新的食材。

OVFoodSeg 的训练过程分为两个阶段:

image

第一阶段是预训练 FoodLearner,使其具备将视觉信息与特定相关食物的文本表征对齐的能力。利用视觉表征利用交叉注意力层更新可学习的 query token,文本信息联合生成文本表征。

image

第二阶段是用于分割任务的学习阶段,调整 FoodLearner 和 Image-Informed Text Encoder 以适应分割任务。

通过在大规模食品相关图像文本对数据集上预训练 FoodLearner,OVFoodSeg 成功地将视觉信息与文本表示紧密地联系起来,从而有效地解决了食材图像分割中的大类内变化问题。OVFoodSeg 在两个开放词汇食品图像分割基准测试中都取得了最先进的性能,证明了其有效性和对现有方法的超越。

食品相关的分割数据集

食品图像分割是食品计算的核心问题,构建具有像素级掩码注释的大规模数据集是解决这一问题的基础。

转载请注明出处 (*❦ω❦)