因为训练使用的损失函数(loss)是经验损失(emperical loss,在训练样本上计算损失),并非真实损失(所有可能样本的损失),最终找到的模型只是在训练集上损失小。因此,我们不能放任样本过于复杂、只拟合训练数据,所以需要正则化。 下面就来逐一讨论不同的 regularizer 吧! Norm Penalty,及其深度学习中的实现方式 假设模型输入...
b.第二种是overconfident predictions,在训练模型时,倾向于让sigmoid越来越陡,每个样本的概率越来越接近0或1。 在logistic regression的优化过程中,目标loss最小(maximum likelihood),这样会倾向于让w变大,使得所有样本的概率尽可能接近1,但这样实际上是overconfident。 w变大,让样本概率接近1,如下图: 这两种overfittin...