KL散度是衡量两个分布之间的差异大小的,KL散度大于等于0,并且越接近0说明p与q这两个分布越像,当且仅当p与q相等时KL散度取0. 交叉熵 在机器学习的分类问题中,常以交叉熵作为损失函数,此时同样可以衡量两个分布的差异. 在分类问题中,某一个样本x可能是K种类别中的一种,y(x)代表样本x对应类别的分布,y^~(x...
三、交叉熵 和KL散度密切联系的是交叉熵(cross-entropy),即 ,它和KL散度很像,但是缺少左边一项: 对离散型型随机变量,表达式展开为: 针对Q最小化交叉熵等价于最小化KL散度,因为Q并不参与被省略的那一项。