为了将局域性引入到基于mlp的体系结构中,一个最简单和最直观的想法是向MLP-Mixer添加一个窗口,然后在窗口内的特征上对本地信息执行token-mixing projection,就像在Swin Transformer中所做的那样。但是对于基于mlp的体系结构,如果划分窗口(如7×7)并在窗口中进行token-mixing projection,那么只使用49x49linear层,这极大...