这里ConvMixer只用卷积层,使用patch的形式在计算过程中,patch特征大小不变,没有对特征做下采样,一般的卷积层特征都是越来越小,这里就很像TRM的各向一致性(第一层到最后一层,序列长度不变) 同时ConvMixer还把通道混合(pointwise-convolution)和空间混合(depthwise-convolution)分离开了也就是说同时用这两个操作,既节省...