分层设计,ODS-DW-ADS数据建模:维度建模,业务过程-确定粒度-维度-事实表数据管理:资产管理,元数据管理、质量管理、主数据管理、数据标准、数据安全管理辅助系统:调度系统、ETL系统、监控系统数据服务:数据门户、机器学习数据挖掘、数据查询、分析、报表系统、可视化系统、数据交换分享下载 ...
按自下而上的顺序,分别为数据仓库ETL(Extract-Transform-Load)层、ODS(Operational Data Store)层、CDM(Common Dimensional Model)层和ADS(Application Data Store)层。其中CDM层主要包括DWD层(Data Warehouse Detail)和DWS层(Data Warehouse Summary)两部分。 数据仓库架构图 一、数据仓库ETL/ELT 数据仓库ETL主要用于...
按照目前大数据企业开发的数据来源来看,不管是爬虫数据,日志数据还是业务数据,都会有一层ODS层,存放最原始的数据. 注意,ODS层数据还起到一个数据备份作用,如果是比较特殊行业,在ODS层的数据会保留一年甚至多年.不过普通公司一般就保存3–6个月,看数据量和存储压力以及存储预算决定. 日志数据估算,如日活100万用户,每个...
数据仓库层 数据仓库层从上到下,又可以分为3个层:数据细节层DWD、数据中间层DWM、数据服务层DWS。 数据细节层DWD 数据细节层:data warehouse details,DWD 该层是业务层和数据仓库的隔离层,保持和ODS层一样的数据颗粒度;主要是对ODS数据层做一些数据的清洗和规范化的操作,比如去除空数据、脏数据、离群值等。 为...
ODS层命名为ods DWD层命名为dwd DWS层命名为dws ADS层命名为ads 临时表数据库命名为xxx_tmp 备份数据数据库命名为xxx_bak 二、数仓环境搭建 1、Hive&MySQL安装 修改hive-site.xml,关闭元数据检查 设置元数据备份:每日零点之后备份到其它服务器两个 2、Hive运行引擎Tez ...
3.1 ODS层 这一层又叫做贴源层,就是接近数据源的一层,需要存储的数据量是最大的,存储的数据也是最原始,最真实未经过太多处理的数据. 按照目前大数据企业开发的数据来源来看,不管是爬虫数据,日志数据还是业务数据,都会有一层ODS层,存放最原始的数据.
dwd(Data Warehouse Detail) 数据明细层,对ods层清洗,列式存储(去除空值,脏数据)等。 dws(Data Warehouse Summary) 宽表,如用户行为拼接服务/行为/订单信息,生成字段比较多的宽表,用于后续业务的查询,olap分析,算法模型等。 ads(Application Data Service) 数据应用层,直接可使用的数据,如数据分析结果/商业报表/app...
ODS层:原始数据,存放于Kafka/Pulsar等消息队列中。DWD层:用户行为明细数据,经过Flink任务聚合后保存到...
《数仓数据分层(ODS DWD DWS ADS)换个角度看_闻香识代码的博客-CSDN博客_ods和ads》数仓数据分层简介1. 背景数仓是什么, 其实就是存储数据,体现历史变化的一个数据仓库. 因为互联网时代到来,基于数据量的大小,分为了传统数仓和现代数仓.传统数仓,使用传统的关系型数据库进行数据存储,因为关系型数据库本身可以使用...
阿里整体数据分了5层,分别是ODS,DWD, DIM,DWS,ADS,下面我们分别介绍一下。 ODS(Operation Data Store)层,中文通常有两种叫法,分别是贴源数据层和操作数据层。 前者是站在与数据源的关系层面来说的,也就是说这一层的数据是跟数据源的数据是一致的,所以称其为贴源数据层。