ODS层及DWD层构建 01:课程回顾 一站制造项目的数仓设计为几层以及每一层的功能是什么? ODS:原始数据层:存放从Oracle中同步采集的所有原始数据 DW:数据仓库层 DWD:明细数据层:存储ODS层进行ETL以后的数据 DWB:轻度汇总层:对DWD层的数据进行轻度聚合:关联和聚合 基于每个主题构建主题事务事实表 DWS:维度数据层:
业务数据:8张表(用户、支付、订单表、订单详情、商品表、商品一二三级分类……) 二、DWD层 1、ETL对数据的核心字段进行清洗【去重、去空】 2、ETL工具是什么 hive的hql spark 的spark SQL MR Python kettle(数据清洗框架) 3、清洗掉多少算正常? 万分之一 4、维度退化 商品表、三级分类、二级分类、一级分类 ...
Ods:存放最终脱敏后的数据或者经增量合并后的最终数据 DW:DataWare house,数据仓库中间层,又细分为DWD和DWS。它的主要作用是完成数据加工与整合、建立一致性的维度、构建可复用的面向分析和统计的明细事实表以及汇总公共粒度的指标。 DWD:Data WarehouseDetail,明细数据层。 DWS:Data Warehouse Summary,轻度汇总数据层。
狭义ADS层;广义上指hadoop从DWD DWS ADS 同步到RDS的数据数据集市(Data Mart),也叫数据市场,数据集市就是满足特定的部门或者用户的需求,按照多维的方式进行存储,包括定义维度、需要计算的指标、维度的层次等,生成面向决策分析需求的数据立方体。从范围上来说,数据是从企业范围的数据库、数据仓库,或者是更加专业的数据...
数据仓库层 DWD层(Data Warehouse Detail):数据明细层,接收ODS层的原始数据,进行清洗、标准化、维度退化、异常数据剔除等操作,为数据分析提供支持。DWS层(Data Warehouse Summary):数据汇总层,通过聚合和汇总DWD层中的数据,形成宽表,提升数据分析性能。CDM层(Common Dimensional Model):公共维度模型层,是...
1:ODS、DWD层的数据会存放在消息中间件中,如Kafka 2:从Kafka中获取到DWD层数据后,DWS、ADS计算任务会同时开始,维度通用指标结果作为DWS层数据存放到实时读写数据库系统中,如HBase、Druid、ClickHouse等,而特定系统的维度指标结果作为ADS层数据,同样存储到实时读写的数据库系统中。
数据明细层 DWD data warehouse detail 数据中间层 DWM data warehouse middle 数据服务层 DWS data warehouse server 数据应用层 APP Application 维表层 DIM dimension 一、数据运营层:ODS(Operational Data Store) “面向主题的”数据运营层,也叫ODS层,是最接近数据源中数据的一层,数据源中的数据,经过抽取、洗净...
其实面试中如果问了数仓分层的话,一定会接着问(ods|dwd|dws|adm)是什么这类的问题,常规的对ods的回答大部分就是上游、或者业务数据流入、这些其实都对,但是总感觉少了点什么,触及不到面试官的兴奋点。我们一定听说过大数据就是石油的比喻,这个比喻其实不光是宏观层面,细节层面也是使用的,石油也是经过原油多到工序...
DWS层与DWT层:提高复用性,以维度为基准 DWD层是以业务过程为驱动,DWS层、DWT层和ADS层都是以需求为驱动,建宽表,按照主题去建表 数仓环境搭建 hive进行管理,计算由hive为主体计算引擎替换为tez或spark,MR很少,还有一种是由hivesql对接数据源 Hive on Spark:Hive既作为存储元数据又负责SQL的解析优化,语法是HQL语法...
ODS、DWD、DWS、DIM、ADS 数据仓库分层 1.ODS:操作数据层 Operation Data Store ODS层属于操作数据层,是直接从业务系统采集过来的最原始的数据,包含了所有业务的变更过程,数据粒度也是最细的。 eg:创建启动日志表ods_start_log 2.DWD: 明细数据层 Data Warehouse Detail...