摘要\quad 我们提出了 LSeg,一种用于语言驱动的语义图像分割的新模型。 LSeg 使用文本编码器计算给定的输入标签(例如,“草”或“建筑物”)的编码和使用图像编码器计算输入图像的每个像素的编码。图像编码器使…
Language-driven Semantic Segmentationopenreview.net/forum?id=RriDjddCLN 摘要 提出了一种新的语言驱动的语义图像分割模型LSeg。LSeg使用文本编码器与基于transformer的图像编码器一起计算描述性输入标签(例如,“草”或“建筑物”)的嵌入,该图像编码器计算输入图像的密集像素嵌入。图像编码器用一种对比目标训练,目的...
LANGUAGE-DRIVEN SEMANTIC SEGMENTATION论文阅读笔记 摘要 文章的主要贡献是提出了一种新的语言驱动的分割模型LSeg,其使用Text encoder编码描述性的输入标签,使用Image encoder计算图像的逐像素的embedding。图像编码器使用的是对比目标训练,目的是将像素的embedding与对应文本标签的embedding进行对齐。text embedding提供了灵活的...
其实Spatial Regularization Blocks这个模块对整个性能没有多大影响,可以先不去考虑。 PASCAL数据集上的结果,LSeg在zero-shot 上效果要好不少,但是对于1-shot来说还是差了15个点左右。如果使用大模型(ViT-L)也还是差了6个点左右。 本质上再算图像特征和文本特征之间的相似性,并不是真的再做一个分类,就会把dog识...
We present LSeg, a novel model for language-driven semantic image segmentation. LSeg uses a text encoder to compute embeddings of descriptive input labels (e.g., ''grass'' or 'building'') together with a transformer-based image encoder that computes dense per-pixel embeddings of the input im...