优点:应用广泛,速度快,鲁棒性强;对于未知特性的数据集都可以先用K-means去试试。 缺点:有倒是有,只是题主并没有指明哪一类缺点,所以这里就说一个方向的缺点 ”Kmeans在聚类过程中同等的看待每个特征维度”,当出现下列情况的数据集时就不能很好的处理: 当数据集中存在噪音维度。假定某个数据集有5个特征维度,但...
针对其一些缺点,例如需要预先给定k值,离群点敏感,对初始聚类中心敏感,结果不稳定等缺点,人们陆陆续续提出了多种方法进行改进,效果良好。 缺点及其改进 需要事先指定聚类的个数k的值 K-Means聚类算法需要用户事先指定聚类的个数k值.在很多时候,在对数据集进行聚类的时候,用户起初并不清楚数据集应该分为多少类合适,...
3.特别地,对于像文本这样的高维稀疏向量,我们可以选取K个两两正交的特征向量作为初始化中心点。
如果是在数据挖掘中,这种方法需要处理大量的二进制属性,因为在数据挖掘的数据集往往有数百或数千类别的分类属性。这将不可避免地增加了k-means算法的计算和空间成本。其他的缺点是集群的方式,由0和1之间的真正价值,并不表明集群的特点。 翻译结果2复制译文编辑译文朗读译文返回顶部...
KMeans是数据挖掘十大算法之一,在数据挖掘实践中,我们也常常将KMeans运用于各种场景,因为它原理简单、易于实现、适合多种数据挖掘情景。 如上图所示,数据样本用圆点表示,每个簇的中心点用叉叉表示: (a)刚开始时是原始数据,杂乱无章,没有label,看起来都一样,都是绿色的。