batchsize越大,设置学习率也要相应增大,batchsize越小,学习率相应越小,从上图也能看出,小bs迈的步子要小一点,避免跳过最优,大的bs步子大一点,防止训练缓慢(大的bs梯度更准确,不如小的bs那样比较摸瞎,所以大胆走,走的快)