回想一下,具有一个隐藏层的简单网络的参数,其计算图如图 5.3.1所示,是 W(1)和W(2). 反向传播的目的是计算梯度 ∂J/∂W(1)和 ∂J/∂W(2). 为此,我们应用链式法则并依次计算每个中间变量和参数的梯度。计算的顺序相对于前向传播中执行的顺序是相反的,因为我们需要从计算图的结果开始并朝着参数的方...
前向传播、反向传播和计算图 — 动手学深度学习 2.0.0 documentation (d2l.ai) 本节开源代码:...>d2l-zh>pytorch>chapter_multilayer-perceptrons>backprop.ipynb 本节教材内容推导详细,没有补充,直接跳到练习。 练习 假设一些标量函数 X 的输入 X 是n×m 矩阵。 f 相对于 X 的梯度维数是多少? 解:对于...
它们是由优化算法根据最近迭代的反向传播给出的。 另一方面,反向传播期间参数(4.7.11)的梯度计算, 取决于由前向传播给出的隐藏变量\(\mathbf{h}\)的当前值。 因此,在训练神经网络时,在初始化模型参数后, 我们交替使用前向传播和反向传播,利用反向传播给出的梯度来更新模型参数。 注意,反向传播重复利用前向传播...