在构建一个神经网络时,batch size通常会选择2的次方,比如256和512。这是为什么呢?() A.当内存使用最优时这可以方便神经网络并行化B.当用偶数是梯度下降优化效果最好C.这些原因都不对D.当不用偶数时,损失值会很奇怪 点击查看答案手机看题 你可能感兴趣的试题 单项选择题 对深度学习中梯度消失的描述正确的是(...
在构建一个神经网络时 ,batch size通常会选择2的次方 ,比如256和512。这是为什么 呢?A.当内存使用最优时这可以方便神经网络并行化B.当用偶数是梯度下降优化效果最好C.这些原因都不对D.当不用偶数时 ,损失值会很奇怪的答案是什么.用刷刷题APP,拍照搜索答疑.刷刷题(shuash