catboost 中feature_importance计算方式 摘要: 一、CatBoost 简介 1.CatBoost 的背景 2.CatBoost 的特点 二、Feature Importance 计算方式 1.基于树的模型 2.CatBoost 中的 Feature Importance 计算方法 3.理解 Feature Importance 的贡献度 三、CatBoost 中 Feature Importance 的实际应用 1.选择关键特征 2.特征排序 ...
CatBoost 中的 feature_importance 计算方式基于梯度提升树(Gradient Boosting Tree)模型。具体来说,它采用以下步骤计算每个特征的 importance: 1.对于每个决策树模型,计算其在训练集上的误差。 2.计算每个特征在误差中的梯度。梯度是误差对特征的偏导数,表示当特征发生变化时,误差将如何改变。 3.根据梯度对每个特征进...
catboost.get_feature_importance(model) ## [,1] ## Seniority 13.704942 ## Home 4.409678 ## Time 4.220234 ## Age 2.819654 ## Marital 1.347322 ## Records 11.865015 ## Job 10.489621 ## Expenses 4.141522 ## Income 16.671911 ## Assets 7.982805 ## Debt 2.387191 ## Amount 13.280631 ## Price 6.6...
将plot = ture 打开后,catboot包还提供了非常炫酷的训练可视化功能,从下图可以看到我的Logloss正在不停的下降。 训练结束后,通过model.feature_importances_属性,我们可以拿到这些特征的重要程度数据,特征的重要性程度可以帮助我们分析出一些有用的信息。 import matplotlib.pyplot as plt fea_ = model.feature_importa...
(train_pool) # 输出特征重要性 feature_importance = model.get_feature_importance() print("Feature importance: ", feature_importance) # 预测新数据 new_data = pd.DataFrame(np.array([[5.1, 3.5, 1.4, 0.2], [6.1, 3.0, 4.9, 1.8], [7.7, 3.8, 6.7, 2.2]]), columns=["sepal_length", "...
is.null(colnames(X_pred)))if(!inherits(X_pred,"catboost.Pool")){X_pred<-catboost.load_pool(X_pred)}S<-catboost.get_feature_importance(object,X_pred,type="ShapValues",...)pp<-ncol(X_pred)+1L baseline<-S[1L,pp]S<-S[,-pp,drop=FALSE]colnames(S)<-colnames(X_pred)shapviz(S,X...
model.get_feature_importance(prettified=True) 使用第三方解释库 Shap。与一般模型直接使用 Shap 有所不同,使用 model.get_feature_importance() 方法,并设置参数 type='ShapValues', 直接输出 shap_values 值,该值可直接用户输出结果值及绘制相应可视化图形。 shap_values = model.get_feature_importance( pool...
fea_=model.feature_importances_ fea_name=model.feature_names_ plt.figure(figsize=(10,10))plt.barh(fea_name,fea_,height=0.5) 执行上方代码,我们可以拿到特征重要程度的可视化结构,从下图我们发现campaign_id是用户是否点击这个广告的最关键的影响因子。
cat_imp <- catboost.get_feature_importance(cat_model) cat_imp ## [,1] ## Gender 3.748060 ## Age 6.866954 ## Fever 6.585276 ## Cough 1.071762 ## ChestPain 6.051192 ## WBCPE 6.714626 ## LDHS 6.410165 ## TPPE 9.842027 ## TPPES 6.416487 ...
训练结束后,通过model.feature_importances_属性,我们可以拿到这些特征的重要程度数据,特征的重要性程度可以帮助我们分析出一些有用的信息。 执行上方代码,我们可以拿到特征重要程度的可视化结构,从下图我们发现campaign_id是用户是否点击这个广告的最关键的影响因子。