正如我们在下面查看“第二差分D-index”图所看到的,很明显,最佳聚类数是k = 4。
因此,我们看到在k = 401的情况下,我们将拥有402个完全适合数据的簇。因此,我们的想法是找到一个k值,对于该值,模型不会过拟合,并且同时根据实际分布对数据进行聚类。现在让我们探讨如何解决找到最佳数目的群集的问题。 肘法 如果将集群解释的方差百分比相对于集群数量作图,则第一个集群会添加很多信息(说明很多方差),...
让我们尝试为该数据创建聚类。 让我们从k = 3开始并检查结果。 kmm K-means clustering with 3 clusters of sizes 93, 167, 142 Cluster means: STG SCG STR LPR PEG 1 0.573053974 0.3863411 0.2689915 1.3028712 0.1560779 2 -0.315847301 -0.4009366 -0.3931942 -0.1794893 -0.8332218 3 -0.003855777 0.2184978 0...