RMSprop与动量梯度下降法(Momentum)类似,都优化了梯度下降过程中的摆动幅度大的问题。(Momentum:tan90:动量梯度下降法(gradient descent with momentum)) 为了进一步优化损失函数在更新中存在摆动幅度过大的问题,并且进一步加快函数的收敛速度,RMSProp算法对权重 W 和偏置 b 的梯度使用了微分平方加权平均数。 先说计算...