O'Reilly动物系列(中译本)(共317册), 这套丛书还有 《SQL学习指南(第2版 修订版)》《机器学习》《Perl语言入门 第8版 (中文版)》《Learning Android(中文版)》《Android应用开发实战(原书第2版)》等。 我要写书评 Hadoop权威指南:大数据的存储与分析(第4版)(修订版)(升级版)的书评 ···(全部 37 ...
存储 数据介绍 优化 权威 权威 知识 大家 重要 帮助 包括 内容摘要 内容摘要 《Hadoop权威指南:大数据的存储与分析》是一本由TomWhite编写的权威指南,于2017年由清华大学。这本书主要介绍了大数据的存储和分析,以及Hadoop在其中的重要作用。这本书首先介绍了Hadoop的基础知识,包括其起源和发展历程,以及其核心组件...
【摘要】 本节书摘来自清华大学出版社《Hadoop权威指南:大数据的存储与分析》一书中第五章,第5.4.1节,作者是Tom White , 王 海 华 东 刘 喻 吕粤海 译。 5.4基于文件的数据结构 对于某些应用,我们需要一种特殊的数据结构来存储自己的数据。对于基于MapReduce的数据处理,将每个二进制数据大对象(blob)单独放在各...
1.2.1 Hadoop分布式文件系统 在《Hadoop权威指南:大数据的存储与分析》作者详细介绍了Hadoop分布式文件系统(HDFS)的基本概念、架构和工作原理。HDFS是一个高度容错的分布式文件系统,旨在为大规模数据集提供高吞吐量、低延迟的数据访问服务。它将数据分散存储在集群中的多个节点上,通过副本机制确保数据的可靠性和可用性。
【摘要】 本节书摘来自清华大学出版社《Hadoop权威指南:大数据的存储与分析》一作者是Tom White , 王 海 华 东 刘 喻 吕粤海 译。 Hadoop权威指南 大数据的存储与分析(第4版) Hadoop: The Definitive Guide Storage and Analysis at Internet Scale
【摘要】 本节书摘来自清华大学出版社《Hadoop权威指南:大数据的存储与分析》一书中第五章,第5.3.1节,作者是Tom White , 王 海 华 东 刘 喻 吕粤海 译。 5.3序列化 序列化(serialization)是指将结构化对象转化为字节流以便在网络上传输或写到磁盘进行永久存储的过程。反序列化(deserialization)是指将字节流转回...
【摘要】 本节书摘来自清华大学出版社《Hadoop权威指南:大数据的存储与分析》一书中第三章,第3.2.2节,作者是Tom White 著 , 王 海 华 东 刘 喻 吕粤海 译。 3.2.2 namenode和datanode HDFS集群有两类节点以管理节点-工作节点模式运行,即一个namenode(管理节点)和多个datanode(工作节点)。namenode管理文件系...
3.4 Hadoop文件系统 Hadoop有一个抽象的文件系统概念,HDFS只是其中的一个实现。Java抽象类 org.apache.hadoop.fs.FileSystem定义了Hadoop 中一个文件系统的客户端接口,并且该抽象类有几个具体实现,其中和Hadoop紧密相关的见表3-1。 表3-1. Hadoop文件系统 ...
Hadoop自带一套原子操作用于数据I/O操作。其中有一些技术比Hadoop本身更常用,如数据完整性保持和压缩,但在处理多达好几个TB的数据集时,特别值得关注。其他一些则是Hadoop工具或API,它们所形成的构建模块可用于开发分布式系统,比如序列化框架和在盘(on-disk)数据结构。