在不使用BN层的时候,由于网络的深度与复杂性,很容易使得底层网络变化累积到上层网络中,导致模型的训练很容易进入到激活函数的梯度饱和区;通过normalize操作可以使得参数值落到0附近,也就是梯度非饱和区,缓解梯度消失的问题。 (4)BN具有一定的正则化效果 在Batch Normalization中,由于我们使用mini-batch
参考链接:饱和和非饱和激活函数 右饱和: 当x 趋向于正无穷大时,导数值趋近于 0 左饱和: 当x 趋向于负无穷大,导数值趋近于 0 饱和激活函数:当满足右饱和和左饱和时,称作饱和激活函数,分别有 Sigmoid 和 tanh 非饱和激活函数:只满足右饱和或左饱和中的一个,或都不满足,则称作非饱和激活函数,有 ReLU 及其他...