Layer Normalization 针对层进行归一化,及对于该层的所有神经元进行归一化,不依赖于 batch。 对每个训练样本,对其所有输入特征,在当前层上的所有神经元上求均值和反差,总共求得 batch_size 个均值和方差,然后进行归一化。 优点 不依赖于 batch 大小,可以适应差距较大的输入样本,因此适合于 RNN 类型的模型。 缺点 ...
1)两者做 Norm 的维度不一样,BN 是在 Batch 维,而 LN 一般是在最后一维。 2)BN 需要在训练过程中,滑动平均累积每个神经元的均值和方差,并保存在模型文件中用于推理过程,而 LN 不需要。 3)因为 Norm 维度的差异,使得它们适用的领域也有差异,BN 更多用于 CV 领域,LN 更多用于 NLP 领域。 为什么 Transformer...