首先,大图像被分割成多个小块,这些小块可以是正方形的、矩形的或其他形状的,取决于具体的实现方式。 然后,模型会独立地处理每个小块,提取出每个小块的特征和信息。 最后,这些从各个小块中提取出的信息被综合起来,用于理解整幅图像的内容。 实现方式: 具体到NaViT模型中的Patch n’ Pack技术,实现过程可以比喻为以...
我们知道Swin Transformer 模型的一个patch size尺寸为4*4,若输入图片尺寸为224*224,这样,经过分割后,其一共有56*56个patch,那么针对注意力机制来讲,一个2000多patch大小的矩阵来计算注意力,其计算量是何等的大。这里你可以想象成NLP机器翻译的示例,一个句子有2500多个单词,来计算注意力,可以参考专栏关于注意力机制...