设置中间结果压缩,减少数据倾斜以及减少io流和网络传输 使用sequencefile作为表存储,可以减少小文件,二进制kv存储,可以合并。或者是常用testfile以及parquent jvm重用:调节参数增加一个JVM可以执行多个MR job 压箱方法:把倾斜值值拿出来后打上随机值后处理在union回去 7. hive自定义函数 继承UDF类,或者UDAF和UDTF 写代...