KL散度是衡量两个分布之间的差异大小的,KL散度大于等于0,并且越接近0说明p与q这两个分布越像,当且仅当p与q相等时KL散度取0. 交叉熵 在机器学习的分类问题中,常以交叉熵作为损失函数,此时同样可以衡量两个分布的差异. 在分类问题中,某一个样本x可能是K种类别中的一种,y(x)代表样本x对应类别的分布,y^~(x...
三、交叉熵 和KL散度密切联系的是交叉熵(cross-entropy),即 ,它和KL散度很像,但是缺少左边一项: 对离散型型随机变量,表达式展开为: 针对Q最小化交叉熵等价于最小化KL散度,因为Q并不参与被省略的那一项。
1. 熵 要想明白交叉熵(Cross Entropy)的意义,可以从熵(Entropy) -> KL散度(Kullback-Leibler Divergence) -> 交叉熵这个顺序入手。 通用的说,熵(Entropy)被用于描述一个系统中的不确定性(the uncertainty of a system)。 放在信息论的语境里面来说,就是一个事件所包含的信息量。 2. KL散度 K... ...