批大小、mini-batch、epoch的含义 每次只选取1个样本,然后根据运行结果调整参数,这就是著名的随机梯度下降(SGD),而且可称为批大小(batch size)为 1 的SGD。 批大小,就是每次调整参数前所选取的样本(称为mini-batch或batch)数量: 如果批大小为N,每次会选取N个样本,分别代入网络,算出它们分别对应的参数调整值,...
小批次随机梯度下降(minibatch Stochastic Gradient Descent,minibatch SGD)就是其中一个改良的版本,通过使用小批量训练样本(子集)估算梯度,从而使计算加速。SGD本身也有诸多“升级”。比如,Adagrad就是其中一个升级版,可通过历史梯度调整每个参数的学习速率α:当梯度非常大时α减小,反之增大。动量(Momentum)是一种加速SG...