Spark是一个基于内存计算的开源的集群计算系统,目的是让数据分析更加快速。Spark非常小巧玲珑,由加州伯克...
Apache Spark是一个基于内存计算的开源的集群计算系统,目的是让数据分析更加快速。Spark非常小巧玲珑,由加州伯克利大学AMP实验室的Matei为主的小团队所开发。使用的语言是Scala,项目的core部分的代码只有63个Scala文件,非常短小精悍。Apache Spark的5大优势:1.更高的性能,因为数据被加载到集群主机的分布...
《Apache Spark大数据分析基于Azure Databricks云平台》是2023年人民邮电出版社出版的图书,作者是罗伯特·伊利杰森。内容简介 Azure Databricks是一款基于云的大数据分析和机器学习平台,用于实现基于Apache Spark的数据处理,为快速增长的海量数据的处理和决策需求分析提供了良好的支撑。《Apache Spark大数据分析:基于Azure ...
《Apache Spark流处理》是2020年5月1日东南大学出版社出版的图书,作者是Gerard、Maas、弗朗索瓦·加里洛。内容简介 在构建分析工具以快速获得洞察力之前,你首先需要知道如何处理实时数据。熟悉Apache Spark的开发人员通过这本实用指南,可以学习如何将该内存框架用于流数据处理。你会发现Spark(如何让你用与编写批处理作业...
Mesos 以每一个工作负载所需的特定方式管理各种工作负载,使得许多公司将 Mesos 作为一个统一的平台,将微服务和数据服务结合在一起。数据密集型应用程序的通用参考架构是“SMACK 家族”(LCTT 译注:SMACK 即 Spark、Mesos、Akka、Cassandra、Kafka)。 是时候搞清楚这些了 ...
《基于Apache Spark的流处理》是2021年中国电力出版社出版的图书。内容简介 学习流处理的基本概念、研究各种流处理架构。通过具体实例来研究Structured Streaming、深入理解流处理概念。通过Spark Streaming创建并管理流作业,使用其他Spark API与Spark Streaming集成。学习Spark Streaming高级技巧,包括近似算法和机器学习算法。...
《大数据处理框架Apache Spark设计与实现》是由2020年8月电子工业出版社出版的图书。作品简介 近年来,以Apache Spark为代表的大数据处理框架在学术界和工业界得到了广泛的使用。本书以Apache Spark框架为核心,总结了大数据处理框架的基础知识、核心理论、典型的Spark应用,以及相关的性能和可靠性问题。本书分9章,主要...
《大数据处理框架Apache Spark设计与实现(全彩)》由电子工业出版社于2020年8月出版,作者是许利杰,方亚芬。本书采用问题驱动的叙述方式,强调基本原理的阐述,内容扎实,深入Spark底层。内容简介 《大数据处理框架Apache Spark设计与实现(全彩)》以Apache Spark框架为核心,总结了大数据处理框架的基础知识、核心理论、...