1 首先通过hive创建一个表table_test 在hdfs的存储路径会生成相应的表 TBLS 也会更新内容进行记录 2 通过hive插入insert一条数据 会走一遍MR,数据产生变化后 TAB_COL_STATS有记录改变(CS_ID)、(TBL_ID) 3 通过hdfs 直接向hive的warehouse上传数据到表中 hadoop fs -put test_table01.txt /user/hive/warehouse...
TAB_COL_STATS:基于表的列统计信息收集 两者张表的表结构大致相同,一个基于表一个基于表的分区级别。 这里讲解一下PART_COL_STATS统计哪些元数据信息(这里基于Mysql存放Hive元数据信息),表结构如下: 代码语言:javascript 复制 CREATETABLE`PART_COL_STATS`(`CS_ID`bigint(20)NOTNULLcomment'ID',`DB_NAME`varchar...
INDEX_PARAMS--索引相关的属性信息。 TAB_COL_STATS--表字段的统计信息。使用ANALYZE语句对表字段分析后记录在这里。 TBL_COL_PRIVS--表字段的授权信息 PART_PRIVS--分区的授权信息 PART_COL_STATS--分区字段的统计信息。 PART_COL_PRIVS--分区字段的权限信息。 FUNCS--用户注册的函数信息 FUNC_RU--用户注册函数...
IDXS 索引表,存储Hive索引相关的元数据 INDEX_PARAMS 索引相关的属性信息。 TAB_COL_STATS 表字段的统计信息。使用ANALYZE语句对表字段分析后记录在这里。 TBL_COL_PRIVS 表字段的授权信息 PART_PRIVS 分区的授权信息 PART_COL_STATS 分区字段的统计信息。 PART_COL_PRIVS 分区字段的权限信息。 FUNCS 用户注册的函...
TAB_COL_STATS 表字段的统计信息。使用ANALYZE语句对表字段分析后记录在这里。 TBL_COL_PRIVS 表字段的授权信息 PART_PRIVS 分区的授权信息 PART_COL_STATS 分区字段的统计信息。 PART_COL_PRIVS 分区字段的权限信息。 FUNCS 用户注册的函数信息 FUNC_RU 用户注册函数的资源信息 概述 Hive 的元数据信息通常存储在关...
TAB_COL_STATS表中列的统计信息,包括数值类型的最大和最小值 TBLS存储表信息,关联字段DB_ID,SD_ID, TBL_COL_PRIVS表或视图中列的授权信息,包括授权用户、被授权用户和授权的权限等 TBL_PRIVS表赋权限相关信息,通过TBL_ID关联 VERSION版本 VERSION_copy版本,通过VER_ID关联 ...
tbl_col_privs,tbl_privs,tab_col_stats,index_params,idxs的原理同上(注意idxs是index_params的主表) delete from tbls where TBL_ID=16 最后删除sds相关 sd_params,bucketing_cols,skewed_string_list_values,skewed_col_names,skewed_values 这些都是sds的从表,需要先行删除,但是基本上都没有数据 ...
在HiveMeta元数据信息表TAB_COL_STATS或PART_COL_STATS收集了每列的为NUM_DISTINCTS的记录数,TAB_COL_STATS是非分区表的统计信息,而PART_COL_STATS是表分区级别的统计信息,两者收集的统计信息维度相同,但统计模块只收集了最基本每列NDV非重复值个数。这里PART_COL_STATS的表结构如下: ...
| TAB_COL_STATS | | TBLS | | TBL_COL_PRIVS | | TBL_PRIVS | | TXNS | | TXN_COMPONENTS | | TYPES | | TYPE_FIELDS | | VERSION | +---+ 53 rows in set (0.00 sec) 可以看到初始化之后,metastore数据库里多了好多表,这些表都与Hive密切相关,我们后面会进行深入学习。 至此,hive的配置就...
5.3 TAB_COL_STATS 字段说明 CS_ID 列统计编号 AVG_COL_LEN 数据的平均长度 MAX_COL_LEN 数据的最大长度 COLUMN_NAME 列的名字 COLUMN_TYPE 列的类型 DB_NAME 数据库的名称 BIG_DECIMAL_HIGH_VALUE 数据中最大的Decimal值 BIG_DECIMAL_LOW_VALUE 数据中最小的Decimal值 DOUBLE_HIGH_VALUE 数据中最大的Dou...