编写好的程序可以提交到Hadoop 集群上用于并行处理大规模的数据集。 MapReduce 作业通过将输入的数据集拆分为独立的块,这些块由 map 以并行的方式处理,框架对map 的输出进行排序,然后输入到 reduce 中。MapReduce 框架专门用于 键值对处理,它将作业的输入视为一组 对,并生成一组 对作为输出。输出和输出的 key 和...