假设batchsize为k, 如果是batchsize是mk, = 可以假定 = ,我们可以看到如果batchsize为mk,虽然它的样本的数量增加了,但是其梯度下降的速度和批量较小的k时是一样的,所以我们应该增大batchsize为mk时的学习率,以更快的收敛到最优解。从另一个方面来说,我们的batchisize越大,设置的学习率也应该越大,从而保证和...