在普通的梯度下降法W -= V中,每次W的更新量V为V = dW * λ; 当使用冲量时,V考虑为本次的梯度下降量与部分上次更新量的矢量和,即-dW*λ与上次x的更新量V乘以一个介于[0, 1]的系数momemtum的和,即: V = dW * λ + V*momemtum。 当本次梯度下降方向与上次更新量的方向相同时,上次的更新量能够...