Hadoop MapReduce是一个使用简便的软件框架,是Google云计算模型MapReduce的Java开源实现,基于它写出来的应用程序能够运行在由上千万台普通机器注册的大型集群系统中,并以一种可靠地、容错的方式并行处理上T级别的数据集。 Hadoop MapReduce基本思想:一个MapReduce作业通常会把输入的数据集合切分为若干独立的数据块,由Map...
MapReduce是Hadoop的核心技术之一,为分布式计算的程序设计提供了良好的编程接口,并且屏蔽了底层通信原理,使得程序员只需关心业务逻辑本事,就可轻易的编写出基于集群的分布式并行程序。从它名字上来看,大致可以看出个两个动词Map和Reduce,“Map(展开)”就是将一个任务分解成为多个子任务并行的执行,“Reduce”就是将分解后...
第6章 并行计算MapReduce 6.1 MapReduce编程模型 6.1.1 并行编程模型概述 6.1.2 并行计算编程模型 6.1.3 MapReduce编程模型 6.2 MapReduce工作原理 6.3 Yarn 6.3.1 Yam基本框架与组件 6.3.2 Yam工作流程 6.3.3 新旧Hadoop MapReduce框架对比 6.4 MapReduce Shuffle性能调优 6.5 本...
5.2.3MapReduce执行过程 59 5.3MapReduce编程——单词示例解析 59 5.4MapReduce应用开发 60 5.4.1配置MapReduce开发环境 60 5.4.2编写和运行MapReduce程序 61 第6章资源管理调度框架YARN 65 6.1YARN产生背景 65 6.2YARN框架介绍 66 6.3YARN工作原理 67 6.4YARN框架和MapReduce1.0框架对比 69 6.5...
本书由Hadoop领域资深的实践者亲自执笔,首先介绍了MapReduce的设计理念和编程模型,然后从源代码的角度深入分析了RPC框架、客户端、JobTracker、TaskTracker和Task等MapReduce运行时环境的架构设计与实现原理,最后从实际应用的角度深入讲解了Hadoop的性能优化、安全机制、多用户作业调度器和下一代MapReduce框架等高级主题和...
本书共10章,主要内容包括:Hadoop简介,Hadoop的安装与配置,HDFS HA及解决方案,HDFS元数据解析,Hadoop的元数据备份方案,Hadoop的BackupNode方案,MapReduce设计理念与基本架构,MapReduce编程模型,YARN设计理念与基本架构,YARN基础库。本书可作为高等院校计算机等相关专业的大数据或相关课程的教材,也可供大数据领域的...
6.2 .MapRedlace编程模型 6.2.1 MapReduce工作流程 6.2.2 MapTask工作原理 6.2.3 ReduceTask工作原理 6.3 MapReduce案例解析 6.3.1 单词统计 6.3.2 倒排索引(InvertedIndex)6.3.3 数据去重(dedup)6.4 本章小结 6.5 课后习题 第7章 项目实战——某国新冠肺炎疫情COVID-19分析 7.1 项目说明 7...
第4章MapReduce计算框架 4.1MapReduce核心思想 4.2MapReduce的工作原理 4.3MapReduce的运行机制 4.4MapReduce数据本地化 4.5MapReduce编程 4.5.1MapReduce运行模式 4.5.2MapReduce编程组件与数据类型 4.6MapReduce编程示例 4.6.1单词计数 4.6.2倒排索引 4.7本章小结 第5章Hive数据仓库 5.1Hive概述 ...
了解HDFS的基本概念,熟悉HDFS读写流程。并在了解原理的基础上实际操作,通过shell命令与python程序访问HDFS加深对HDFS的理解。2-1 HDFS概念及优缺点 (07:43)2-2 HDFS写流程和读流程 (06:24)2-3 Shell命令操作HDFS (07:18)2-4 Python程序操作HDFS (09:02)第3章 Hadoop核心MapReduce 了解MapReduce编程模型,...