同时训练并不是越大的batch越好, 大多数梯度下降时通常会平均整个batch的误差, 过大batch反而会使模型...
没关系,看数据量,一般设置在总数据量的四分之一到三分之一,数据量特别大时,就顶着显存上限设。
同时训练并不是越大的batch越好, 大多数梯度下降时通常会平均整个batch的误差, 过大batch反而会使模型...
同时训练并不是越大的batch越好, 大多数梯度下降时通常会平均整个batch的误差, 过大batch反而会使模型...
。所以对于该参数量少,计算量大的模型来说,在训练过程中如果硬件环境相同,bs也不能设很大 ...