两种情况下梯度消失经常出现,一是在深层网络中,二是采用了不合适的损失函数,比如sigmoid。梯度爆炸一般出现在深层网络和权值初始化值太大的情况下,下面分别从这两个角度分析梯度消失和爆炸的原因。 2.1.深层网络角度 比较简单的深层网络如下: 图中是一个四层的全连接网络,假设每一层网络激活后的输出为 f_i(x)...
首先,梯度消失与爆炸的根源在于深度神经网络和反向传播机制。深层网络的复杂性导致了反向传播过程中梯度信息的衰减或膨胀。优化神经网络的目标在于找到参数使其损失函数达到极小值点,梯度下降法是常用策略。深层网络由多层非线性函数堆叠而成,每一层的梯度计算是链式求导的结果。梯度消失通常发生在深层网络中...
因此,梯度消失、爆炸,其根本原因在于反向传播训练法则,本质在于方法问题,另外多说一句,对于人来说,在大脑的思考机制里是没有反向传播的,Hinton提出capsule的原因就是为了彻底抛弃目前基于反向传播的深度学习算法,如果真能大范围普及,那真是一个革命。 2.2.激活函数角度 其实也注意到了,上文中提到计算权值更新信息的时...