1. -bandwidth:设置数据传输的带宽,以M/s为单位。 2. -mapred.map.tasks:设置MapReduce任务所使用的Map数目。 3. -mapred.task.timeout:设置任务运行的最长时间。 4. -mapreduce.map.maxattempts:设置每个Map任务的最大重试次数。 三、Distcp参数的容错能力 在大规模数据传输的过程中,容错能力较差的Distcp任务...
2、优点: ① 可以限制带宽,使用bandwidth参数对 distcp 的每个 map 任务限流,同时控制 map 并发数量即可控制整个拷贝任务的带宽,防止拷贝任务将带宽打满,影响其它业务。 ② 支持overwrite(覆盖写,无条件覆盖目标文件,即使它们存在),update(增量写,如果 dest 文件的名称和大小与 src 文件不同,则覆盖;若目的文件大小...
a: ACLs x: xattr-i,--ignore-failures Ignore failures during copy-log<logdir>Write logsto<logdir>/distcp.log-m<num_maps>Maximum numberofsimultaneous copies-bandwidth<bandwidth>Specify bandwidthtousewhencopying data-updateUpdatetarget fileswhensourceisnewer-overwrite Overwrite target files unconditionally-...
1.带宽限流 DistCp是支持带宽限流的,使用者可以通过命令参数bandwidth来为程序进行限流,原理类似于HDFS中数据Balance程序的限流.但是个人感觉做的比Balance稍微简化了一些.DistCp中相关类是ThrottledInputStream,在每次读操作的时候,做一些限流判断: /** {@inheritDoc} */@Overridepublicintread()throwsIOException { thrott...
5. -bandwidth:限制复制带宽,避免对网络带宽造成影响。 6. -m:指定同时进行的复制任务数。 7. -diff:只复制源文件夹和目标文件夹中差异的文件。 8. -strategy:指定数据复制策略,例如通过RPC复制数据还是通过HTTP复制数据等。 以上是常用的Distcp参数,可以根据具体的数据复制需求进行选择和配置,以达到最优的复制效...
hadoop distcp-update-overwrite-skipcrccheck-bandwidth1000000hdfs://clusterA:9000/data hdfs://clusterB:9000/backup 1. 上述命令将会在复制过程中跳过CRC校验,只复制源路径中修改时间较新的文件,覆盖目标路径中已存在的文件,并将复制过程的带宽限制设置为1MB/s。
-bandwidth:指定复制带宽,单位是MB/s。 -m:指定最大并发复制任务数。 4. 日志控制参数 -verbose:显示详细的复制过程信息。 -log:指定日志文件路径。 5. 安全控制参数 -preserve-block-size:保留源文件的块大小。 -preserve-replication:保留源文件的副本数。 -preserve-raw-xattrs:保留源文件的扩展属性。 -dist...
- -bandwidth <带宽限制>:限制网络带宽 示例: 1.将本地目录/tmp/data1拷贝到Hadoop集群的/user/hadoop/data1目录下: hadoop distcp /tmp/data1 hdfs://namenode:8020/user/hadoop/data1 2.保持文件属性,并限制带宽为100MB/s: hadoop distcp -p -bandwidth 100 /tmp/data1 hdfs://namenode:8020/user/ha...
--bandWidth:表示本次distcp任務所用的單機頻寬(單位:MB),避免單機佔用過大頻寬。 樣本命令如下: jindo-distcp-tool-${version}.jar --src /data/hourly_table --dest oss://example-oss-bucket/hourly_table --bandWidth 6 使用--codec 版本 OSS OSS-HDFS 4.3.0及以上版本 支援 支援 原始檔案通常以未壓縮...
当没有对原目录的写操作时(即停止了对源目录的写操作),可以使用以下命令来跨集群同步数据:hadoop distcp -delete -update -pugpb -m 10 -bandwidth 5 hdfs://xx.xx/ hdfs://yy.yy/ 当有对原目录的写操作时(即有对原目录的并发写操作),需要结合快照机制来同步数据:hadoop distcp -diff-update -pugpb ...