它其实是对梯度计算结果的一个解释,用的其实还是梯度下降法。 也就是说,主要还是微积分多元函数的计算。头疼.jpg 可以看到这里是多输出问题,但只关注一个输出的推导即可,其他都是一样的。 首先看均方误差求偏导,其中公式(5.4)是三层复合函数,第一层是损失函数对输出求导( ),第二层是输出对节点的输入求导( ),...