MLP-Mixer的结构非常简单。首先,与ViT类似,输入图像被分成小块,用全连接层进行初步的特征提取。这样,每个图像块都有了自己的特征,可以看作一个Token。接下来就是核心的Mixer层,它包含了两个步骤:Token-mixing和Channel-mixing。前者在Token的层面上操作,其实就是把所有的Token利用MLP进行加权平均。这与自注意力中的...
MLP-Mixer的结构非常简单。首先,与ViT类似,输入图像被分成小块,用全连接层进行初步的特征提取。这样,每个图像块都有了自己的特征,可以看作一个Token。接下来就是核心的Mixer层,它包含了两个步骤:Token-mixing和Channel-mixing。前者在Token的层面上操作,其实就是把所有的Token利用MLP进行加权平均。这与自注意力中的...
MLP-Mixer的结构非常简单。首先,与ViT类似,输入图像被分成小块,用全连接层进行初步的特征提取。这样,每个图像块都有了自己的特征,可以看作一个Token。接下来就是核心的Mixer层,它包含了两个步骤:Token-mixing和Channel-mixing。前者在Token的层面上操作,其实就是把所有的Token利用MLP进行加权平均。这与自注意力中的...