对比无权重时的答案: w^*=(XX^T)^{-1}XY r 是对数据的一个权重,若权重越大,此数据对结果的影响程度就越大,因此可以根据数据的重要性来设置相应的权重。 [习题2-3]证明在线性回归中,如果样本数量 N 小于特征数量 D+1 ,则 XX^T 的秩最大为 N 证明: 先引入一个定理: rank(AB)\le \min\{ran...
[习题4-9] 梯度消失问题是否可以通过增加学习率来缓解? 答: 梯度消失问题是由于激活函数为类似于sigmoid与tanh,其值太大或太小时导数都趋于0;并且在深层神经网络中,误差反向传播时,传播到前几层时梯度信息也会很小。问题是可否通过增大学习率来增大梯度,以至于梯度信息可以在更新时变大。 答案是不行,增大学习率...
\[\begin{array}{l} 令\ \frac{\partial R(w)}{\partial w}=-r x\left(y-x^{T} w\right)=0 \ \left. \\ w^{*}=(\sum_{n=1}^{N} x^{(n)}\left(x^{(n)}\right)^{T}\right)^{-1}\left(\sum_{n=1}^{N} r^{(n)} x^{(n)} y^{(n)}\right) \end{array} \] ...
\[\begin{array}{l} 令\ \frac{\partial R(w)}{\partial w}=-r x\left(y-x^{T} w\right)=0 \ \left. \\ w^{*}=(\sum_{n=1}^{N} x^{(n)}\left(x^{(n)}\right)^{T}\right)^{-1}\left(\sum_{n=1}^{N} r^{(n)} x^{(n)} y^{(n)}\right) \end{array} \] ...
[习题3-5] 在Logistic回归中,是否可以用 \hat y=\sigma(w^Tx) 去逼近正确的标签 y,并用平方损失 (y-\hat y)^2 最小化来优化参数 w? 答: 先给出结论:在以sigmoid为激活函数时,不能使用平方损失作为loss function,效果远不如cross entropy。 (1)当以平方损失作为loss function时: L={1\over 2} (...