3. 分析步骤 1) 数据准备 2) 确定K值并聚类 3) 初步认识类 4) 分析类的特征 4. K-means聚类实...
'''Annual Income and spending Score''' X2 = df[['Annual Income (k$)' , 'Spending Score (1-100)']].iloc[: , :].values inertia = [] for n in range(1 , 11): algorithm = (KMeans(n_clusters = n ,init='k-means++', n_init = 10 ,max_iter=300, tol=0.0001, random_state...
scaler= MinMacaer()#决策树检验dt= DeonTreasifi(random_state=666) 5 特征筛选 5.1 特征选择-删除30%列 X_test = X_test.iloc[:,sp.get_spport()]#决策树检验dt=DecisonreeClssifie(random_state=666)dt.fit(X_trin,y_tain)dt.score(X_tst,y_est) pre =dt.pdict(X_test) pe_rob =dt.redic...
iris.data, iris.target, cv=5, score_func=metrics.f1_score) #f1 score: http://en.wikipedia.org/wiki/F1_score
iloc[:,sp.get_spport()] #决策树检验 dt = DecisonreeClssifie(random_state=666) dt.fit(X_trin,y_tain) dt.score(X_tst,y_est) pre = dt.pdict(X_test) pe_rob = dt.redicproba(X_test)[:,1] pr_rob uc(pr,tpr) 5.2 共线性/数据相关性 代码语言:javascript 代码运行次数:0 复制Cloud...
random_state : 控制每次质心随机初始化的随机数种子。 n_init : 整数,默认10,使用不同的质心随机初始化的种子来运行KMeans算法的次数。最终结果会是基于Inertia来计算的n_init次连续运行后的最佳输出。 迭代停止 max_iter : 整数,默认300,单次运行的KMeans算法的最大迭代次数。 tol : 浮点数,默认1e-4,两次...
dt = DeonTreasifi(random_state=666) 5 特征筛选 5.1 特征选择-删除30%列 X_test = X_test.iloc[:,sp.get_spport()] #决策树检验 dt = DecisonreeClssifie(random_state=666) dt.fit(X_trin,y_tain) dt.score(X_tst,y_est) pre = dt.pdict(X_test) ...
dt = DecisonreeClssifie(random_state=666) dt.fit(X\_trin,y\_tain) dt.score(X\_tst,y\_est) pre = dt.pdict(X_test) pe\_rob = dt.redicproba(X\_test)\[:,1\] pr_rob uc(pr,tpr) 1. 2. 3. 4. 5. 6. 7. 8.
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=666) 3.1 理解数据 可以看到变量比较的多,先进行分类,除去目标变量label,此数据集的字段可以分成三个类别:订单相关指标、客户行为相关指标、酒店相关指标。
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=666) 3.1 理解数据 可以看到变量比较的多,先进行分类,除去目标变量label,此数据集的字段可以分成三个类别:订单相关指标、客户行为相关指标、酒店相关指标。