batch size最大是样本总数N,此时就是Full batch learning。如果数据集较小,可以采用全数据集(Full batch learning)的形式,这样有两个显然的好处:1.由全数据集计算的梯度能够更好的代表样本总体,从而更准确的朝向极值所在的方向;2.不同权重的梯度值差别很大,因此选取一个全局的学习率会比较困难(?) batch size最小...
SGD和Adam的收敛性证明也都是要求learning rate最后会降到足够低的。但自适应优化器的学习率不会在训练中自动降到很低。 现在大模型预训练,大家其实最关注的就是这个loss的收敛效果。 这个时候,LR schedule的出现就是一个比较好的补充,能够补足优化器的一些问题。 所以,你可以理解为,现在我们没有一个完美的油门,...