1.batch size和leaning rate的关系 现在深度学习中的绝大多数算法采用梯度下降法来进行训练,并且通过选择学习率来控制下降的步长,在梯度下降法中学习率和batch size的选择直接影响了下降的步长,即步长与batch size成反比,与学习率成正比,因此这两个参数直接影响了模型的参数更新,他们是影响模型性能收敛的最佳参数。 (...
1、增加batch size会使得梯度更准确,但也会导致variance变小,可能会使模型陷入局部最优; 2、因此增大batch size通常要增大learning rate,比如batch size增大m倍,lr增大m倍或者sqrt(m)倍,但并不固定; 3、learning rate的增加通常不能直接增加太大,一般会通过warm up逐步增大; 4、warm up策略参考 准备用m个batche...
这也是一开始learning rate小的原因,先去探索,收集统计数据,再让learning rate慢慢拉升。 学习率和batchsize的关系 学习率和batchsize的关系应该是怎样的呢? batchsize变大k倍,学习率也要相应变大k倍,本质是为了梯度的方差保持不变; 问:为什么要保证梯度的方差不变呢? 答:个人猜想,是为了解决陷入局部最优和一个...