可以通过指定大于 1 的值来加快复制速度。默认值为 20。 -bandwidth <bandwidth>: 用于限制数据传输的带宽。可以通过指定来避免过度占用网络带宽。 -update: 用于在目标端只更新新的文件和文件夹,避免重复复制已经存在的文件。启用此选项可以加速数据传输。 -overwrite: 用于覆盖目标端的文件。启用此选项后,如果目标端...
在默认情况下, Distcp 会跳过目标路径下已经存在的文件。 官网地址:http://hadoop.apache.org/docs/r2.7.0/hadoop-distcp/DistCp.html 2)适合的场景及其有点 1、适合场景: 数据异地灾,机房下线,数据迁移等。 2、优点: ① 可以限制带宽,使用bandwidth参数对 distcp 的每个 map 任务限流,同时控制 map 并发数量即...
1:支持带宽限流,可以使用bandwidth参数对distcp的每个map任务限流,同时控制map并发数量即可控制整个拷贝任务的带宽,防止拷贝任务将带宽打满,影响其它业务。 2:支持overwrite(覆盖写),update(增量写),delete(删除写)等多种源和目的校验的拷贝方式,大量数据的拷贝必然要做到数据拷贝过程中的校验,来保证源和目的数据的一致...
hadoop distcp -update -skipcrccheck -delete -bandwidth 50 -m 100 -mapredSudo hdfs://src_cluster/user/hadoop/example hdfs://dst_cluster/user/hadoop/backup 命令中使用了以下参数: -update:只复制更新时间较新的文件; -skipcrccheck:跳过 CRC 校验; -delete:删除目标集群中比源集群中旧或不存在的文件...
--bandWidth 可选 设置单个节点的带宽限制,单位:MB。 -1 4.3.0+ 支持 支持 --codec 可选 设置压缩类型,支持的编解码器包括 gzip、gz、lzo、lzop和snapp。 keep(不更改压缩类型) 4.3.0+ 支持 支持 --policy 可选 设置目标存储策略,支持Standard、IA、Archive、ColdArchive。
当没有对原目录的写操作时(即停止了对源目录的写操作),可以使用以下命令来跨集群同步数据:hadoop distcp -delete -update -pugpb -m 10 -bandwidth 5 hdfs://xx.xx/ hdfs://yy.yy/ 当有对原目录的写操作时(即有对原目录的并发写操作),需要结合快照机制来同步数据:hadoop distcp -diff-update -pugpb ...
--bandWidth 可选 设置单个节点的带宽限制,单位:MB。 -1 4.3.0+ 支持 支持 --codec 可选 设置压缩类型,支持的编解码器包括 gzip、gz、lzo、lzop和snapp。 keep(不更改压缩类型) 4.3.0+ 支持 支持 --policy 可选 设置目标存储策略,支持Standard、IA、Archive、ColdArchive。
--bandwidth:指定带宽的大小,单位为MB。 示例如下。 hadoop jar jindo-distcp-<version>.jar--src/data/incoming/hourly_table--destoss://yang-hhht/hourly_table--ossKeyyourkey--ossSecretyoursecret--ossEndPointoss-cn-hangzhou.aliyuncs.com--queueyarnqueue--bandwidth6--parallelism10 ...
在未指定 --groupBy,且 --outputCodec 为默认值时生效。 限制单文件读取带宽 以参数 --bandWidth 执行命令,数值单位为MB。限制每个迁移文件的读取带宽为10MB/s,示例如下: hadoop jar cos-distcp-${version}.jar --src /data/warehouse --dest cosn://examplebucket-1250000000/data/warehouse --bandWidth=10 ...
hadoop distcp-bandwidth15-m50-pb hdfs://10.10.10.10:8020//flume/xxx/xxx/day=2018-03-12/flume/xxx/xxx/day=2018-03-12 3.2、流量超标问题 问题:迁移数据时没有设置,一次性迁移了好几个月的数据,导致流量超标。 解决: 指定带宽限制(-bandwidth),同时拷贝的最大数目(-m)。