tEnv.getConfig() // 访问高级配置 .getConfiguration() // 设置底层 key-value 配置 .setString("table.optimizer.distinct-agg.split.enabled", "true"); // 开启 distinct 切分聚合 1. 2. 3. 4. 5. 6. scala // 实例化 table 环境 val tEnv: TableEnvironment = ... tEnv.getConfig // 访问...
. state.backend.local-recovery: 设置本地恢复,当 Flink 任务失败时,可以基于本地的状态信息进行恢复任务,可能不需要从 hdfs 拉取数据 5.Checkpoint 设置 一般我们的 Checkpoint 时间间隔可以设置为分钟级别,例如 1 分钟、3 分钟,对于状态很大的任务每次 Checkpoint 访问 HDFS 比较耗时,可以设置为 5~10 分钟一次Ch...
<property><name>yarn.nodemanager.resource.cpu-vcores</name><value>32</value></property><property><name>yarn.nodemanager.resource.memory-mb</name><value>1638400</value></property>将配置文件同步到另外两个节点 scp yarn-site.xml node1:`pwd` scp yarn-site.xml node2:`pwd` 重启yarn stop-yarn....
1.启动hadoop集群(hdfs, yarn)2.运行无界流 bin/flink run -t yarn-per-job -c com.bigdata.flink.java.chapter_2.Flink03_WC_UnBoundedStream ./flink-prepare-1.0-SNAPSHOT.jar 3.在yarn的ResourceManager界面查看执行情况 三、Flink on Yarn的3种部署模式 Flink提供了yarn上运行的3种模式,分别为Session-...
Flink on YARN是一种在Hadoop集群上运行Flink应用程序的方式。本文将介绍Flink on YARN的参数配置,包括常见的参数选项、调优技巧和最佳实践。 1. 常见参数选项 1.1 集群参数 •yarn.applicationName:应用程序的名称。 •yarn.queue:指定应用程序提交到的队列。 •yarn.containerMemory:每个YARN容器的内存大小。
flink on yarn模式会覆盖一些配置文件 jobmanager.rpc.address(因为jobmanager总是分配在不同的机器),taskmanager.tmp.dirs(我们使用yarn提供的临时目录)和parallelism.default 如果solts的数量已经被指定。 如果不想修改配置文件去改变参数,有一个选择是通过动态的参数-D 来指定。所以你可以传递参数:-Dfs.overwrite-file...
测试Flink on YARN 模式运行情况 先清除之前运行的结果文件 hdfs dfs -rm /test/output/result.txt 其他不变,运行代码改为 bash flink run -m yarn-cluster ../examples/batch/WordCount.jar --input hdfs://node-00:8020/test/input/wordcount.txt --output hdfs://node-00:8020/test/output/result.txt ...
yarn.nodemanager.resource.memory-mb:节点最大可用内存,我这里设置为8G 上述三个参数的值,是基于我的CDH服务器有32G内存的背景,请您按照自己硬件资源自行调整; 设置完毕后重启YARN服务,操作如下图所示: 至此,部署和设置都已完成,Flink on Yarn的环境已经可用了,在下一篇文章中,我们就在此环境提交Flink任务,体验Fli...
在HDFS中$HADOOP_HOME/etc/hadoop/capacity-scheduler.xml中有"yarn.scheduler.capacity.maximum-am-resource-percent"配置项,该项默认值为0.1,表示Yarn集群中运行的所有ApplicationMaster的资源比例上限,默认0.1表示10%,这个参数变相控制了处于活动状态的Application个数,所以这里我们修改该值为0.5,否则后续在Yarn中运行多个...
在使用Flink on yarn模式进行内存资源调优时,可以配置Flink的参数来优化内存使用。以下是一些关键参数的配置指导: JobManager参数: jobmanager.heap.mb:用于设置JobManager的堆内存大小,一般建议不要配置得太大,1-2G足够。 jobmanager.rpc.address:指定JobManager的地址。 jobmanager.rpc.port:指定JobManager的端口。