分桶规则:对分桶字段值进行哈希,哈希值除以桶的个数求余,余数决定了该条记录在哪个桶中,也就是余数相同的在一个桶中。 优点:1、提高join查询效率 2、提高抽样效率 1、建表 通过clustered by(字段名) into bucket_num buckets 分桶,意思是根据字段名分成bucket_num个桶 create table test_bucket ( id int ...
分区表适用于数据量较大、有明显分区特征的表,可以提高查询性能;分桶表适用于需要进行连接操作的表,可以提高连接操作的性能。通过合理使用分区表和分桶表,可以优化Hive中的数据管理和查询性能。 参考资料 [Hive官方文档](