不过需要注意下学习率一般应随总batch_size(batch_size per gpu*gpu_num)呈线性变化 ...
batch_size是single gpu 的batch_size么,那后者的 total batch size会更大呀,大batch_size涨点是很...
只有一组tuning parameter啊……cross validation就是用来选这个optimal tuning parameter的。如果每一次cross...