这是一张典型的数据仓库架构图。按自下而上的顺序,分别为数据仓库ETL(Extract-Transform-Load)层、ODS(Operational Data Store)层、CDM(Common Dimensional Model)层和ADS(Application Data Store)层。其…
这一层又叫做贴源层,就是接近数据源的一层,需要存储的数据量是最大的,存储的数据也是最原始,最真实未经过太多处理的数据. 按照目前大数据企业开发的数据来源来看,不管是爬虫数据,日志数据还是业务数据,都会有一层ODS层,存放最原始的数据. 注意,ODS层数据还起到一个数据备份作用,如果是比较特殊行业,在ODS层的数据...
DW层又细分为维度层(DIM)、明细数据层(DWD)和汇总数据层(DWS),采用维度模型方法作为理论基础, 可以定义维度模型主键与事实模型中外键关系,减少数据冗余,也提高明细数据表的易用性。在汇总数据层同样可以关联复用统计粒度中的维度,采取更多的宽表化手段构建公共指标数据层,提升公共指标的复用性,减少重复加工。
ods层可以有不脱敏的数据,但这样的表有权限 6、压缩,优势:减少磁盘空间 7、列式存储,parquet:提高查询效率 8、分区表: 用户行为数据 ods_start:get_json_object()函数 ods_event:使用自定义UDF、自定义UDTF,以及额外的get_json_object()进行后续解析 业务数据 用户、支付、订单表、订单详情、商品表 三、DWS层...
数据仓库层从上到下,又可以分为3个层:数据细节层DWD、数据中间层DWM、数据服务层DWS。 数据细节层DWD 数据细节层:data warehouse details,DWD 该层是业务层和数据仓库的隔离层,保持和ODS层一样的数据颗粒度;主要是对ODS数据层做一些数据的清洗和规范化的操作,比如去除空数据、脏数据、离群值等。 为了提高数据明...
搭建ADS层 一、设备主题 1.1活跃设备数(日、周、月) 1.2 每日新增设备 1.3留存率 1.4沉默用户数 1.5本周回流用户数 1.6流失用户数 1.7最近连续三周活跃用户数 1.8最近七天内连续三天活跃用户数 二、会员主题 2.1会员信息 2.2漏斗分析 三、商品主题 3.1商品主题 3.2商品营销排名 3.3商品收藏排名 3.4商品加入购物车...
分层带来更好的语义层抽象和数据复用,但也增加了调度的依赖、降低数据的时效性、减少数据灵活分析的敏捷...
数据运营层:Operation Data Store 数据准备区,也称为贴源层。数据源中的数据,经过抽取、洗净、传输,也就是ETL过程之后进入本层。该层的主要功能: ODS是后面数据仓库层的准备区为DWD层提供原始数据减少对业务系统的影响 为了考虑后续可能需要追溯数据问题,因此对于这一层就不建议做过多的数据清洗工作,原封不动地接入...
主要对ODS/DWD层数据做一些轻度的汇总。 数据应用层ADS 数据应用层:Application Data Service,ADS(APP/DAL/DF)-出报表结果该层主要是提供给数据产品和数据分析使用的数据,一般会存放在ES、Redis、PostgreSql等系统中供线上系统使用;也可能存放在hive或者Druid中,供数据分析和数据挖掘使用,比如常用的数据报表就是存在这...
分别是ODS、DWD、DIM、DWS、DWT、以及ADS层。其中除了ADS层(数据应用层、报表应用层指标计算存储)不涉及建模以外。其他均涉及建模工作。 三、ODS层 1、ODS层设计要点 这层又叫“贴源层”,存储来自多个业务系统、前端埋点、爬虫获取等的一系列数据源的数据。我们主要做三件事: ...