公式为IG(X,Y)=H(Y)-H(Y|X) 。它衡量了通过某条件对目标变量不确定性的减少程度 。信息增益越大 ,该条件对目标变量的区分能力越强 。在决策树构建中常利用信息增益来选择特征 。比如有多个特征可选 ,选信息增益大的特征 。若某特征使信息增益为0 ,则该特征无区分价值 。信息增益的计算依赖于信息熵和...
某个样本集中的信息熵计算,是2为底对数不是自然对数,可使用numpy计算,即,entrop=-(p1*np.log2(p1)+p2*np.log2(p2)+……) 胡梦柯5 9S 12 划分后,每个子集要本子集的熵再乘以一个子集占上层样本集的占比即子集出现概率,再上层减子层子集熵的和即为信息增益。 胡梦柯5 9S 12 决策树的信息增益传统...