最核心的区别就是第三步所执行的下降方向,在这个式子中,前半部分是实际的学习率(也即下降步长),后半部分是实际的下降方向。不同优化算法也就是不断地在这两部分上做文章。 最朴素的优化算法就是SGD了,没有动量和自适应学习率的概念,但还是有很多人在用着。 SGD 梯度更新规则: SGD的形式最简单 ηt=α⋅g...