主要是数据分析领域,数据科学家要负责分析数据并建模,具备 SQL、统计、预测建模(机器学习)等方面的经验,以及一定的使用 Python、 Matlab 或 R 语言进行编程的能力。 数据处理应用: 工程师定义为使用 Spark 开发 生产环境中的数据处理应用的软件开发者,通过对接Spark的API实现对处理的处理和转换等任务。 二、Spark部...
(1)RDD基本操作范例1 此部分在完成第5节SPark的安装与部署后进行实操学习: #使用SparkContext.paralleize或makeRDD方法从内存直接读取数据创建RDD scalavalrdd01sc.parallelize(List(1,2,3,4,5,6)) rdd01:org.apache.spark.rdd.RDD[Int]ParallelCollectionRDD[13]atparallelize atconsole:24 scala valrdd02sc.ma...