earth.count(na.omit(x),number=4,overlap=1/5)——连续变量x的离散化,把x转化为因子类型;number设置区间个数,overlap设置两个区间靠近边界的重合?每个区间的观测值相等 stripplot(x1~y|x2)——lattice包的复杂箱图,存在两个因子x1,x2控制下的y, x2按照从左到右,从下到上的顺序排列,左下方的x2值较小 ...
EmployerName变量,因为类别太多,所以删掉了一些类别。 因为Existing_EMI变量只有111个值缺失,所以缺失值补充为中位数0。 增加了 Interest_Rate_Missing 变量。如果Interest_Rate变量的数据缺失,则这个参数的值为1。否则为0。删除了原先的Interest_Rate变量。 删除了Lead_Creation_Date,从直觉上这个特征就对最终结果没什...