(3)coalesce:coalesce常用来减少分区,第二个参数是减少分区的过程中是否产生shuffle。 true为产生shuffle,false不产生shuffle。默认是false。 如果coalesce设置的分区数比原来的RDD的分区数还多的话,第二个参数设置为false不会起作用,如果设置成true,效果和repartition一样。即repartition(numPartitions) = coalesce(numP...
spark://HOST1:PORT1,HOST2:PORT2,连接带有Zookeeper备份的standalone集群的master节点。该列表必须使用Zookeeper设置高可用性集群中的所有主主机,端口默认7077。 mesos://host:port,连接 Mesos 集群,端口默认5050 yarn,连接 YARN 集群,此外--deploy-mode参数决定了是client还是cluster模式 k8s://https://host:port ...
–driver-cores NUM:driver使用的内核数,默认为1 当–master参数设置为Standalone或者Mesos,–deploy-mode参数设置为cluster时,如下选项可以设置: –supervise:如果设置了该参数,driver失败是会重启 –kill SUBMISSION_ID:如果设置了该参数,则会杀死指定SUBMISSION_ID的driver进程 –status SUBMISSION_ID:如果设置了该参数...
--executor-cores 每个executor 使用的 core 数,Spark on Yarn 默认为 1,standalone 默认为 worker 上所有可用的 core。 YARN-only: --driver-cores driver 使用的 core,仅在 cluster 模式下,默认为 1。 --queue QUEUE_NAME 指定资源队列的名称,默认:default --num-executors 一共启动的 executor 数量,默认...
默认值:5s 参数说明:具体解释同上,该参数代表了每次重试拉取数据的等待间隔,默认是5s。 调优建议:建议加大间隔时长(比如60s),以增加shuffle操作的稳定性。 --conf spark.shuffle.memoryFraction 默认值:0.2 参数说明:该参数代表了Executor内存中,分配给shuffle read task进行聚合操作的内存比例,默认是20%。
一种是基于命令行参数,比如上面的--master,spark-submit可以通过--conf参数,接收所有spark属性 另一种是从conf/spark-defaults.conf文件中加载,其中每一行都包括了一个key和value 比如spark.executor.memory 4g 所有在SparkConf、spark-submit和spark-defaults.conf中配置的属性,在运行的时候,都会被综合使用 ...
spark://HOST:PORT连接到指定的Spark独立集群主节点。端口必须是您的主节点配置的端口,默认为7077。spar...
前者的含义是总内存占堆的比例,即execution+storage+shuffle内存的总量。后者则是storage内存占前者的比例。默认值分别为0.75(最新版变成了0.6)和0.5。 spark.driver/executor.extraJavaOptions 含义:Driver或Executor进程的其他JVM参数。 设定方法:一般可以不设置。如果设置,常见的情景是使用-Xmn加大年轻代内存的大小,或者...
因此Spark官网建议的设置原则是,设置该参数为num-executors * executor-cores的2~3倍较为合适,比如Executor的总CPU core数量为300个,那么设置1000个task是可以的,此时可以充分地利用Spark集群的资源。 spark.storage.memoryFraction 参数说明:该参数用于设置RDD持久化数据在Executor内存中能占的比例,默认是0.6。也就是说...