lseg:language-driven+semantic+segmentation

2025-05-23 03:33:09

拼音 [ 拼音 ]

LSeg: LANGUAGE-DRIVEN SEMANTIC SEGMENTATION - 知乎

摘要\quad 我们提出了 LSeg,一种用于语言驱动的语义图像分割的新模型。 LSeg 使用文本编码器计算给定的输入标签(例如,“草”或“建筑物”)的编码和使用图像编码器计算输入图像的每个像素的编码。图像编码器使…
Lseg(Language -driven semantic segmentation)ICLR2022 - 哔哩哔哩

通过矩阵相乘将文本和图像结合起来了。训练时可以学到language aware(语言文本意识)的视觉特征。从而在最后推理的时候能使用文本的prompt任意的得到分割的效果。本文中文本编码器的参数完全使用的CLIP的文本编码器的参数,因为分割任务的数据集都比较小(10-20万),为保证文本编码器的泛化性,就直接使用并锁住CLIP中文本编...