caffe里面的SGD指的就是你说的mini-batch GD. 你理解的SGD,只用一个样本计算梯度的,在实际操作中...
答:【严格证明有待补充】我们在使用mini-batch SGD训练NN时,实际上做的事情,是通过mini-batch上的梯度来估计整个训练集上的梯度。显然,使用1个样本(即SGD)相比使用100个样本的batch,梯度的噪声要大得多。也就是说,当使用小batch SGD时,我们并不总是沿着loss下降最快(即梯度方向)的方向移动的。相反,如果使用整...
答:【严格证明有待补充】我们在使用mini-batch SGD训练NN时,实际上做的事情,是通过mini-batch上的梯度来估计整个训练集上的梯度。显然,使用1个样本(即SGD)相比使用100个样本的batch,梯度的噪声要大得多。也就是说,当使用小batch SGD时,我们并不总是沿着loss下降最快(即梯度方向)的方向移动的。相反,如果使用整...