随机初始化质心可能导致算法迭代很慢,K-means++是对K-mean随机初始化质心的一个优化,具体步骤如下: 随机选取一个点作为第一个聚类中心。 计算所有样本与第一个聚类中心的距离。 选择出上一步中距离最大的点作为第二个聚类中心。 迭代:计算所有点到与之最近的聚类中心的距离,选取最大距离的点作为新的聚类中心。
在运行K-均值算法的之前,我们首先要随机初始化所有的聚类中心点: 1. 我们应该选择𝐾 < 𝑚,即聚类中心点的个数要小于所有训练集实例的数量 2. 随机选择𝐾个训练实例,然后令𝐾个聚类中心分别与这𝐾个训练实例相等 K-均值的一个问题在于,它有可能会停留在一个局部最小值处,而这取决于初始化的情 况。