这样就可以得到参数更新公式: 。(其中 是步长, 是函数在 时的梯度) 因为我们使用的是一阶泰勒展开式,因此 要非常小,式子才成立。也就是说学习速率要非常小才行。所以如果你要让你的损失函数越来越小的话,梯度下降的学习速率就要非常小。如果学习速率没有设好,有可能更新参数的时候,函数近似表达式是不成立的,这...
梯度下降法参数更新公式的推导 先来回顾⼀下梯度下降法的参数更新公式:(其中,α是学习速率,是梯度)这个公式是怎么来的呢?下⾯进⾏推导:⾸先,如果⼀个函数 n 阶可导,那么我们可以⽤多项式仿造⼀个相似的函数,这就是泰勒展开式。其在a点处的表达式如下:可以看出,随着式⼦的展开,这个展开式...