对结果肯定是有影响的,模型稳定性应该会变差。影响有多大,可能要根据任务、模型决定了。可以参考:深度...
3.5 整合了分散在 2.2 以及 3.2-3.3 中的直觉概念—噪声,并介绍了一个初步的分析结果 g = \eta (\frac{N}{B} - 1),同时分享了一些实验证据。其中 g 为噪声,\eta 为更新步长,N 为训练集样本数,B 为batch size。 4. 参考文献 [Bottou et al, 2008] The Tradeoffs of Large Scale Learning [Bottou...