一方面,在前向传播过程中计算正则化项(5.3.5) 取决于模型参数的当前值W(1)和W(2). 它们由优化算法根据最近一次迭代中的反向传播给出。另一方面,反向传播过程中参数(5.3.11)的梯度计算取决于隐藏层输出的当前值h,这是由前向传播给出的。 因此在训练神经网络时,在初始化模型参数后,我们交替进行正向传播和反向...
前向传播、反向传播和计算图 — 动手学深度学习 2.0.0 documentation (d2l.ai) 本节开源代码:...>d2l-zh>pytorch>chapter_multilayer-perceptrons>backprop.ipynb 本节教材内容推导详细,没有补充,直接跳到练习。 练习 假设一些标量函数 X 的输入 X 是n×m 矩阵。 f 相对于 X 的梯度维数是多少? 解:对于...
它们是由优化算法根据最近迭代的反向传播给出的。 另一方面,反向传播期间参数(4.7.11)的梯度计算, 取决于由前向传播给出的隐藏变量\(\mathbf{h}\)的当前值。 因此,在训练神经网络时,在初始化模型参数后, 我们交替使用前向传播和反向传播,利用反向传播给出的梯度来更新模型参数。 注意,反向传播重复利用前向传播...