Batch Normalization 是对这批样本的同一维度特征做归一化, Layer Normalization 是对这单个样本的所有维度特征做归一化。LN不依赖于batch的大小和输入sequence的长度,因此可以用于batchsize为1和RNN中sequence的normalize操作。 为什么BN在NLP中效果差 BN计算特征的均值和方差是需要在ba
简单来说,B是bs,C是通道数,H和W是高和宽。那么对应到NLP中,一个最容易出错的点是把C对应成句子长度,其实这里C应该对应到的单个词的dimen;其实很好理解,同一个元素多个C通道代表的是同一个位置上的不同表示,那么对应到NLP中应该一个单词的表达向量;所以BN在NLP中的应用应该是对于一个batch中所有样本单词的单...