一般做特征筛选是先粗筛再细筛,先筛掉垃圾/无用特征,再对弱特征和相关特征做细致的筛选。对于逻辑回归建模,特征筛选需要细致一点,最后入模的特征控制在8-20个,筛选的步骤为: 对于Xgboost,Lightgbm建模,特征筛选可以粗一点,因为算法本身就自带了对特征的选择,筛选的步骤为: xgboost和lightgbm特征筛选的差异: xgboost不能处理类别
在风控建模中,多特征筛选的重要性不可忽视。当面对大量特征时,仅仅依靠全部特征进行建模可能导致维度灾难和模型过于复杂,同时也可能引入冗余或无关的特征,降低模型的准确性和解释性。 多特征筛选的目标是从所有可用特征中选择出对于风控模型建立和预测最为重要的特征子集。通过合理选择和精心筛选特征,我们可以提高模型的...
风控模型中特征重要度的两种筛选方法分别为:Feature Importance方法:简介:在决策树算法中,通过Feature Importance指标量化分析特征重要度,方法简便且逻辑清晰。局限:一是对连续型或高维度离散型特征有偏好,可能导致重要性估计失真;二是重要性系数基于训练数据,难以反映模型在测试数据上的泛化能力,尤其在...
答: 特征稳定性主要通过计算不同时间段内同一类用户特征的分布的差异来评估。常用的度量手段是:PSI 二:多特征筛选: 特征筛选的方法有: 星座特征,Boruta, 方差膨胀系数, 后向筛选, L1惩罚系数, 业务逻辑。 2.1: 星座特征: 2.2: Boruta算法: Boruta算法的案例: 1:安装boruta算法包: 2: 加载数据: import numpy...
具体做法是:将特征值随机排列,若排列后测试数据模型损失显著增加,表明该特征对模型至关重要;反之则不重要。通过多次排列计算重要性系数平均值,降低结果随机性影响,确保评估结果客观。Permutation Importance方法提供了更直观、全面的特征重要性评估,对比常规Feature Importance方法,其在处理连续型或高维度...
127《客户分层-客群分层特征方向》(视频版 ) 番茄风控大数据 191 0 s训练营①《量化风控策略-课程简介》(视频版 ) 番茄风控大数据 32 0 开悟是什么?多数人达不到!有这七个特征,说明你已经开悟了。你的人生会彻底不同! 国学修心智慧 7689 8 123《风控中EL拨备相关指标-风险管理模块》(视频版 ) 番茄风...
风控建模之多特征筛选 建模过程中,特征必须要具备一定的区分度,特征之间线性无关,特征相对稳定。同时,在建模过程中,特征不是越多越好,因为过多的特征会导致模型训练容易过拟合,训练速度也会变慢,而且会增加开发上线以及后期监控维护成本。所以通过前一篇文章中提到的对单特征的覆盖度、IV值、PSI分析筛选后,我们还...
答: 特征稳定性主要通过计算不同时间段内同一类用户特征的分布的差异来评估。常用的度量手段是:PSI 二:多特征筛选: 特征筛选的方法有: 星座特征,Boruta, 方差膨胀系数, 后向筛选, L1惩罚系数, 业务逻辑。 2.1: 星座特征: 2.2: Boruta算法: Boruta算法的案例: ...
在采用决策树算法建立模型的场景中,例如GBDT、XGBoost、LightGBM、Random Forest等,我们习惯通过Feature Importance指标作为特征筛选的重要方法之一。从特征定量分析的可解释性角度来讲,这种方法实现过程方便,且评估逻辑简单,因此在决策树的实际建模场景中应用较为广泛。
在风控领域中,为了判断用户的好坏,会使用到用户多维度的信息,我们称之为特征/变量。由于存储、计算能力等各种问题,我们不能使用全部特征来对业务做贡献。那么特征维度千千万,究竟使用哪些特征才能最简单有效的描述问题?这就涉及到了特征分析与筛选。 数据的探索分析,是对数据进行统计分析,统计数据的分布、异常、相互关...