因此,我们看到在k = 401的情况下,我们将拥有402个完全适合数据的簇。因此,我们的想法是找到一个k值,对于该值,模型不会过拟合,并且同时根据实际分布对数据进行聚类。现在让我们探讨如何解决找到最佳数目的群集的问题。 肘法 如果将集群解释的方差百分比相对于集群数量作图,则第一个集群会添加很多信息(说明很多方差),...
让我们尝试为该数据创建聚类。 让我们从k = 3开始并检查结果。 kmm K-means clustering with 3 clusters of sizes 93, 167, 142 Cluster means: STG SCG STR LPR PEG 1 0.573053974 0.3863411 0.2689915 1.3028712 0.1560779 2 -0.315847301 -0.4009366 -0.3931942 -0.1794893 -0.8332218 3 -0.003855777 0.2184978 0...
Model-based clustering plots:1: BIC2: classification3: uncertainty4: densitySelection: 1 可以在下面看到该图,其中k = 3和k = 4是可用的最佳选择。 从这两种方法可以看出,我们可以在一定程度上确定对于聚类问题而言,聚类数的最佳值是多少。几乎没有其他技术可以使用。 hist(nb$Best.nc[1,], breaks = max...