摘要\quad 我们提出了 LSeg,一种用于语言驱动的语义图像分割的新模型。 LSeg 使用文本编码器计算给定的输入标签(例如,“草”或“建筑物”)的编码和使用图像编码器计算输入图像的每个像素的编码。图像编码器使…
通过矩阵相乘将文本和图像结合起来了。训练时可以学到language aware(语言文本意识)的视觉特征。从而在最后推理的时候能使用文本的prompt任意的得到分割的效果。 本文中文本编码器的参数完全使用的CLIP的文本编码器的参数,因为分割任务的数据集都比较小(10-20万),为保证文本编码器的泛化性,就直接使用并锁住CLIP中文本编...