在使用kmeans之前,必须先了解kmeans算法的2个缺点:第一是必须人为指定所聚的类的个数k;第二是如果使用欧式距离来衡量相似度的话,可能会得到错误的结果,因为没有考虑到属性的重要性和相关性。为了减少这种错误,在使用kmeans距离时,一定要使样本的每一维数据归一化,不然的话由于样本的属性范围不同会导致错误的结果。
(4)聚类中心不再变化或到最大迭代次数,则停止,否则,重复2、3。 二、K-means算法手写公式化表示 三、K-means算法适用范围 适用于凸数据集,且数据集符合混合高斯分布,这也是由算法特性决定的 四、K-means算法实例 1、数据集介绍,数据是个人工作中的一个数据,是有1万+鞋子的种类,然后想通过价格,人气,配色等看...