动量梯度下降法的优点包括:1. 减少振荡,更容易跳出局部最优;2. 加快收敛过程;3. 提高在非凸优化问题中寻找较好解的能力,能够跳出局部
因为下降的路线更接近同一个方向,因此也可以将学习率增大来加快训练速度。 动量梯度下降的优势有两点: 1.加速收敛,减少了收敛过程中的震荡 2.在一定范围内可以有效的避免收敛到局部最优解