第2章习题解答 2-1 分析为什么平方损失函数不适用于分类问题。 从理论上来说,平方损失函数也可以用于分类问题,但不适合。首先,最小化平方损失函数本质上等同于在误差服从高斯分布的假设下的极大似然估计,然而大部分分类问题的误差并不服从高斯分布。而且在实际应用中,交叉熵在和Softmax激活函数的配合下,能够使得损失...
对比无权重时的答案: w^*=(XX^T)^{-1}XY r 是对数据的一个权重,若权重越大,此数据对结果的影响程度就越大,因此可以根据数据的重要性来设置相应的权重。 [习题2-3]证明在线性回归中,如果样本数量 N 小于特征数量 D+1 ,则 XX^T 的秩最大为 N 证明: 先引入一个定理: rank(AB)\le \min\{ran...
习题2-1:分析为什么平方损失函数不适用于分类问题。 从理论上来说,平方损失函数也可以用于分类问题,但不适合。首先,最小化平方损失函数本质上等同于在误差服从高斯分布的假设下的极大似然估计,然而大部分分类问题的误差并不服从高斯分布。而且在实际应用中,交叉熵在和Softmax激活函数的配合下,能够使得损失值越大导数...
[习题4-9] 梯度消失问题是否可以通过增加学习率来缓解? 答: 梯度消失问题是由于激活函数为类似于sigmoid与tanh,其值太大或太小时导数都趋于0;并且在深层神经网络中,误差反向传播时,传播到前几层时梯度信息也会很小。问题是可否通过增大学习率来增大梯度,以至于梯度信息可以在更新时变大。 答案是不行,增大学习率...
[习题3-5] 在Logistic回归中,是否可以用 \hat y=\sigma(w^Tx) 去逼近正确的标签 y,并用平方损失 (y-\hat y)^2 最小化来优化参数 w? 答: 先给出结论:在以sigmoid为激活函数时,不能使用平方损失作为loss function,效果远不如cross entropy。 (1)当以平方损失作为loss function时: L={1\over 2} (...