// Job需要根据Mapper和Reducer输出的Key-value类型准备序列化器,通过序列化器对输出的key-value进行序列化和反序列化 // 如果Mapper和Reducer输出的Key-value类型一致,直接设置Job最终的输出类型 job.setOutputKeyClass(Text.class); job.setOutputValueClass(IntWritable.class); // 设置输入格式方法二 //job.setI...
默认的输入格式是TexInputFormat,输出是TextOutpFormat 默认的streaming作业 输入格式 输入分片与记录 一个输入分片就是由单个map操作来处理的数据块,并且每一个map只处理一个分片、 每个输入分片分为若干个记录,每条记录就是 一个键值对,map将一个接一个地处理记录 输入分片和记录都是逻辑概念,不一定对应着文件,也...
job.setMapperClass(WCMapper.class); job.setReducerClass(WCReducer.class); // Job需要根据Mapper和Reducer输出的Key-value类型准备序列化器,通过序列化器对输出的key-value进行序列化和反序列化 // 如果Mapper和Reducer输出的Key-value类型一致,直接设置Job最终的输出类型 job.setOutputKeyClass(Text.class); job...
conf.set("mapreduce.input.fileinputformat.split.maxsize", "2048"); // 设置输入格式 conf.set("mapreduce.job.inputformat.class", "org.apache.hadoop.mapreduce.lib.input.CombineTextInputFormat"); //保证输出目录不存在 FileSystem fs=FileSystem.get(conf); if (fs.exists(outputPath)) { fs.del...