K-means中心思想:事先确定常数K,常数K意味着最终的聚类类别数,首先随机选定初始点为质心,并通过计算每一个样本与质心之间的相似度(这里为欧式距离),将样本点归到最相似的类中,接着,重新计算每个类的质心(即为类中心),重复这样的过程,直到质心不再改变,最终就确定了每个样本所属的类别以及每个类的质心。由于每次...
Canopy算法是为了解决Kmeans需要人为指定K值的问题。因为有时如果数据点应该是分成三类为佳,我们却将K值指定为4,那么分类效果就不会很好。当然,如果我们必须要将数据分成4类,那把K人为指定为4是没问题的,但如果只是为了将数据“自适应”地聚类,就可以考虑使用Canopy算法来帮我们找到合适的K值。 其实Canopy属于一种‘...