在ViT中,cls-token是在Transformer中使用的特殊标记,它通常被用于预测整个输入序列的类别或执行其他分类任务。在ViT中,这个cls-token通常被设置为整个数据集共享的,这意味着在所有图像的表示中,cls-token的向量都是相同的。 这种共享的方法可以带来几个好处: 实现了位置不变性:在视觉任务中,通常不需要考虑每个像素点...
因为NLP是怎么用的,通过token的形式完成任务输出 在ViT中不使用cls-token也行 你直接把ViT当成backbone...