但是,梯度下降法和牛顿法有一定的不同: 首先,两种算法的更新规则是不同的。梯度下降法用的是梯度下降的方法,即根据最新的梯度值,以当前位置为基准,沿着此方向寻找梯度最低点,即下降最小值点;而牛顿法则需要计算平均梯度以及拟合函数的矩阵,即当前位置的Hessian矩阵,然后根据它们来更新参数。 此外,由于梯度下降更新...
梯度下降法更新参数的方式为目标函数在当前参数取值下的梯度值,前面再加上一个步长控制参数alpha。梯度下降法通常用一个三维图来展示,迭代过程就好像在不断地下坡,最终到达坡底。为了更形象地理解,也为了和牛顿法比较,这里我用一个二维图来表示: 在二维图中,梯度就相当于凸函数切线的斜率,横坐标就是每次迭代的参数...