在标准的随机梯度下降中, 权重衰减正则化和 ℓ2 正则化的效果相同. 因此, 权重衰减在一些深度学习框架中通过 ℓ2 正则化来实现. 但是, 在较为复杂的优化方法( 比如 Adam) 中, 权重衰减正则化和 ℓ2 正则化并不等价A.正确B.错误的答案是什么.用刷刷题APP,拍照