主要是数据分析领域,数据科学家要负责分析数据并建模,具备 SQL、统计、预测建模(机器学习)等方面的经验,以及一定的使用 Python、 Matlab 或 R 语言进行编程的能力。 数据处理应用: 工程师定义为使用 Spark 开发 生产环境中的数据处理应用的软件开发者,通过对接Spark的API实现对处理的处理和转换等任务。 二、Spark部...
Scala 是 Spark 的主要编程语言,如果仅仅是写 Spark 应用,并非一定要用 Scala,用 Java、Python 都是可以的。使用 Scala 的优势是开发效率更高,代码更精简,并且可以通过 Spark Shell 进行交互式实时查询,方便排查问题。 执行如下命令启动 Spark Shell:
(1)RDD基本操作范例1 此部分在完成第5节SPark的安装与部署后进行实操学习: #使用SparkContext.paralleize或makeRDD方法从内存直接读取数据创建RDD scalavalrdd01sc.parallelize(List(1,2,3,4,5,6)) rdd01:org.apache.spark.rdd.RDD[Int]ParallelCollectionRDD[13]atparallelize atconsole:24 scala valrdd02sc.ma...