iris = datasets.load_iris() x_train = iris['data'][:,(2, 3)] k = 3 kmeans = KMeans(n_clusters = k,random_state=42) y_pred = kmeans.fit_predict(x_train) # 画出聚类效果 iris_types = np.unique(y_pred) plt.figure(figsize=(12, 8)) for iris_type in iris_types: plt.sca...
X_std = StandardScaler().fit_transform(X) # 使用PCA进行降维,以便更好地进行聚类分析pca = PCA(n_components=2) # 降至2维以便可视化 X_pca = pca.fit_transform(X_std) # 使用K-means进行聚类 k = 3 # 基于先前的分析决定将用户分为3个群体 kmeans = KMeans(n_clusters=k, random_state=42) ...
sns.scatterplot(x='PC1',y='PC2',hue='Cluster',data=pca_df,palette='viridis') plt.title('PCA: KMeans Clusters') plt.xlabel('Principal Component 1') plt.ylabel('Principal Component 2') plt.tight_layout() plt.show() # 结果分析 print("\nInterpretation:") print(f"PCA reduced the dat...
target.astype(int) # 2. 使用 KMeans 进行聚类 kmeans = KMeans(n_clusters=10, random_state=42, n_init="auto") # 因为 MNIST 是 0-9 的数字,所以设置 n_clusters=10 kmeans.fit(X) # 3. 获取聚类标签 cluster_labels = kmeans.labels_ # 4. 将聚类标签映射到真实的数字标签 def map_...
kmeans = KMeans(n_clusters=k, random_state=42) kmeans.fit(X) # 计算每个数据点的轮廓系数 score = silhouette_score(X, kmeans.labels_) # 计算整个聚类的 Silhouette 统计量 silhouette_scores.append(score) # 选择具有最大 Silhouette 统计量的 k 值 ...
k=2 kmeans=KMeans(n_clusters=k,random_state=42) y_pred=kmeans.fit_predict(X) plt.plot(X[y_pred==1,0],X[y_pred==1,1],"ro",label="group 1") plt.plot(X[y_pred==0,0],X[y_pred==0,1],"bo",label="group 0")
reshape(image, (w * h, d))# 使用 k-means 进行图像压缩kmeans = KMeans(n_clusters=16, random_state=42).fit(image_array)labels = kmeans.predict(image_array)compressed_image = kmeans.cluster_centers_[labels].reshape(w, h, d)# 显示原始图像和压缩后的图像fig, ax = plt.subplots(1, 2...
n_init=10, max_iter=100, random_state=42 ) # 对无离群点数据的聚类 clusters_predict = km.fit_predict(data_no_outliers) 7.4 评价聚类效果 聚类效果如何评价?常用的三种评价指标: Davies-Bouldin指数 Calinski-Harabasz Score Silhouette Score
returnget_cluster_labels(clusters, X) # 创建测试数据 # X = np.array([[0,2],[0,0],[1,0],[5,0],[5,2]]) fromsklearn.datasetsimportmake_blobs # 生成3类数据,每类50个样本,每个样本2个特征 X, y=make_blobs(n_samples=150, centers=3, n_features=2, random_state=0) ...
请查找所附文件:http://www.filedropper.com/example_3.我试过用这个代码:kmeans = KMeans(n_clusters=2, random_state=0, max_iter =300).fit(dffinal) 我知道在这个例子中有两个类,这就是我尝试使用两个集群的原因。在42 浏览0提问于2016-12-23得票数 0...