研究背景K-Means简介基于MapReduce的K-Means算法设计实验结果和分析 研究背景 大数据时代的来临 数据呈现爆炸性增长传统的平台无法满足需求亟需新的平台天才般的MapReduce计算框架开源的Hadoop平台数据越大,聚类效果越好 云计算的出现 聚类算法和大数据 K-Means简介 ...
map()所要做的是,读取每个数据点寻找离该点最近的簇 id,通过计算欧式距离, 选择距离最小的那个簇中心,输出的格式是<Instance,clusterID >。 (7). KMeansDriver 该类是用来启动整个 MapReduce,启动参数包括 k: 簇中心数,iteration num: 迭代数,input path: 输入路径,output path: 输出路径。 首先调用 Random...
模糊K-means算法能够定量地确定事物的亲属关系,是一种重要的软聚类算法,针对该算法在大规模数据的分析和处理中存在的不足,提出了基于MapReduce模型的并行化实现。在Map函数的输出传递给其他节点的Reduce函数之前,改进了Combine函数设计,增加一步本地中间结果处理,减少通信开销,以提高MapReduce任务计算速度。在Hadoop分布式...
拨打IVR的客户主要是ARPU值小于350的客户,ARPU值为100~150之间的客户拨打IVR的频率最高。 3.2 K-means算法与分析过程 移动IVR客户细分分析过程[5]如下: (1)将客户划分为4类: A类客户:ARPU值及入网时长都很高 B类客户:ARPU值高,入网时长较低 C类客户:ARPU值较低,入网时长高 D类客户:ARPU值和入网时长都...
K-means聚类是一种基于距离的聚类算法,它采用距离作为相似性的评价指标,认为两个对象的距离越近,其相似度就越大,该算法解决的问题可抽象成:给定正整数k和n个对象,如何将这些数据点划分为k个聚类?该问题采用MapReduce计算思路如下,首先随机选择k个对象作为初始中心点,然后不断迭代计算,直到满足终止条件(达到...
室基于基于MapReduceMapReduce的的KK--MeansMeans算法设计算法设计 算法设计 伪代码 Map伪代码 Partion伪代码 Reduce伪代码 OutputFormat伪代码按照《可感染人类的高致病性病原微生物菌(毒)种或样本运输管理规定》要求运输至具有从事埃博拉病毒相关实验活动资质的实验室算法设计算法设计 job:计算新的聚类中心 Map: 输入:...
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat; import org.apache.hadoop.util.GenericOptionsParser; public class Kmeans { // static List<ArrayList<Double>> centers ; ...
K-Means示例基于MapReduce的K-Means算法设计算法设计伪代码 Map伪代码 Partion伪代码 Reduce伪代码 OutputFormat伪代码算法设计 job:计算新的聚类中心 Map:输入:Object,一条数据输出:所属类 ,数据 Reduce:输入: ,相应数据的集合输出: ,新的聚类中心迭代job,直至相连两次的聚类中心小于阈值流程图 Map伪代码 public ...
但K-means聚类算法需要进行多次迭代才能达到可接受的效果,并将每次迭代作为一个独立map作业执行,需要读写整个数据集,从而导致显著的I/O消耗,与MapReduce框架的设计理念不符。为此,提出了一个基于MapReduce的单遍K-means算法(MRSK)。该算法采用流数据单遍算法读取数据,聚类时采用K-means++初始化seeding算法得到初始...
基于MapReduce模型的并行遗传k-means聚类算法