1.1 开窗,按照 id 分组,同时按照 dt 排序,求 Rank -- linux 中空格不能用 tab 键selectid,dt,rank()over(partitionbyidorderbydt) rkfromtx; 1.2 将每行日期减去RK值,如果之前是连续的日期,则相减之后为相同日期 z: 等差 (x1+z)-(y1+z)=x1-y1 selectid,dt,date_sub(dt,rk) flgfrom(selectid,dt...
业务数据的变化,我们可以通过 FlinkCDC 采集到,但是 FlinkCDC 是把全部数据统一写入一个 Topic 中, 这些数据包括事实数据,也包含维度数据,这样显然不利于日后的数据处理,所以这个功能是从 Kafka 的业务数据 ODS 层读取数据,经过处理后,将维度数据保存到 HBase,将事实数据写回 Kafka 作为业务数据的 DWD 层 实现动态...
1.1.9 脚本启动 [root@hadoop102 module]$ ods_to_dwd_log.sh 2020-06-15 1. 1.2 业务数据分析 其他表不分析,直接脚本使用就可以 时间维度表(特殊) 建表语句 hive (gmall)> DROP TABLE IF EXISTS `dwd_dim_date_info`; CREATE EXTERNAL TABLE `dwd_dim_date_info`( `date_id` string COMMENT '日'...
如何优化工业大数据的ODS层? ODS层及DWD层构建 01:课程回顾 一站制造项目的数仓设计为几层以及每一层的功能是什么? ODS:原始数据层:存放从Oracle中同步采集的所有原始数据 DW:数据仓库层 DWD:明细数据层:存储ODS层进行ETL以后的数据 DWB:轻度汇总层:对DWD层的数据进行轻度聚合:关联和聚合 基于每个主题构建主题事...
大数据 - DWD&DIM 行为数据 我们前面采集的日志数据已经保存到 Kafka 中,作为日志数据的 ODS 层,从 Kafka 的ODS 层读取的日志数据分为 3 类,页面日志、启动日志和曝光日志。这三类数据虽然都是用户行为数据,但是有着完全不一样的数据结构,所以要拆分处理。将拆分后的不同的日志写回 Kafka 不同主题中,作为日志...
bin目录下创建脚本:vim ods_to_dwd_log.sh #!/bin/bash APP=gmall # 如果是输入的日期按照取输入日期;如果没输入日期取当前时间的前一天 if [ -n "$2" ] ;then do_date=$2 else do_date=`date -d "-1 day" +%F` fi dwd_start_log=" set hive.input.format=org.apache.hadoop.hive.ql.io....
ods_to_dwd_log type: command dependsOn: - hdfs_to_ods_log config: command: /home/atguigu/bin/ods_to_dwd_log.sh all ${dt} - name: ods_to_dwd_db type: command dependsOn: - hdfs_to_ods_db config: command: /home/atguigu/bin/ods_to_dwd_db.sh all ${dt} - name: dwd_to_dws...
大数据计算MaxCompute dwd订单表目前有2个亿左右数据,然后业务库每天有30万数据变化,同步到ods表,包括...
QQ阅读提供剑指大数据:Flink实时数据仓库项目实战(电商版),11.12 DWD层调优实操在线阅读服务,想看剑指大数据:Flink实时数据仓库项目实战(电商版)最新章节,欢迎关注QQ阅读剑指大数据:Flink实时数据仓库项目实战(电商版)频道,第一时间阅读剑指大数据:Flink实时数据
130_尚硅谷_数仓搭建_DWD层_自定义UDTF函数_实现(上)(上)。听TED演讲,看国内、国际名校好课,就在网易公开课