gain(outlook)最大,则说明使用outlook当根节点在第初始的时候使得系统的熵下降的最快,所以决策树选择outlook当根节点。 几种构建决策树的算法。 ID3:信息增益 C4.5: 信息增益率 (ID3扩展算法) CART:Gini系数 评价函数,类似于损失函数。 信息增益率在信息增益的基础上增加了惩罚项,惩罚项是特征的固有值。 信息增益...
信息增益率 = 上一次的信息熵 - 当前信息熵 = -(8/17*log(8/17)+9/17*log(9/17)) - (6/17 * Ent(D1) + 6/17 * Ent(D2) + 5/17*Ent(D3)) > 0 说明存在信息增益 信息增益率: C4,5 通过进行前后的信息熵的相除 CART算法: 基尼系数, 从两个样本中随机抽取两个样例,其类别标记不一致...
决策树构建: 选择最佳属性对原样本集进行划分(信息增益: 在 ID3 决策树中使用 信息增益率: 在 C4.5 决策树中使用 基尼系数: 在 CART 决策树中使用) 划分后的不同子样本集都只存在同类样本,那么停止划分