信息量、信息熵、KL散度、交叉熵 一、信息量 定义: 香农(C. E. Shannon)信息论应用概率来描述不确定性。信息是用不确定性的量度定义的。一个消息的可能性愈小,其信息愈多;而消息的可能性愈大,则其信息量愈少;事件出现的概率小,不确定性越多,信息量就大,反之则少。香农认为“信息是用来消除随机不确定性...
KL散度是衡量两个分布之间的差异大小的,KL散度大于等于0,并且越接近0说明p与q这两个分布越像,当且仅当p与q相等时KL散度取0. 交叉熵 在机器学习的分类问题中,常以交叉熵作为损失函数,此时同样可以衡量两个分布的差异. 在分类问题中,某一个样本x可能是K种类别中的一种,y(x)代表样本x对应类别的分布,y^~(x...
三、交叉熵 和KL散度密切联系的是交叉熵(cross-entropy),即 ,它和KL散度很像,但是缺少左边一项: 对离散型型随机变量,表达式展开为: 针对Q最小化交叉熵等价于最小化KL散度,因为Q并不参与被省略的那一项。