1. 升维或降维:1x1卷积实际上是对每个像素点,在不同的channels上进行线性组合(信息整合),且保留了图片的原有平面结构,调控depth,从而完成升维或降维的功能。2. 提高网络的表达能力:加入非线性以提高网络的…
1,模型权重:神经网络模型都是由相似的 layer 堆叠而成,例如 cnn 模型的卷积层、池化层、全连接层等;以及 transformer 模型的 self-attention 层、全连接层、layer_norm 层等。 2,中间结果:前向传播计算过程中,前一层的输出就是后一层的输入,相邻两层的中间结果也是需要 gpu 显存来保存的。