为了弄清楚为何会出现消失的梯度,来看看一个极简单的深度神经网络:每一层都只有一个单一的神经元。下图就是有三层隐藏层的神经网络: 这里, 是权重,而 是偏置, 则是某个代价函数。回顾一下,从第 个神经元的输出 ,其中 是通常的S 型激活函数,而 是神经元的带权输入。我已经在最后表示出了代价函数 来强调代价...