Apache Doris 整合 FLINK CDC 、Paimon 构建实时湖仓一体的联邦查询入门 张家锋 杭州云器销售总监,Apache Doris PMC 来自专栏 · Apache Doris 5 人赞同了该文章 1.概览 多源数据目录(Multi-Catalog)功能,旨在能够更方便对接外部数据目录,以增强Doris的数据湖分析和联邦数据查询能力。
流数据湖平台Apache Paimon(三)Flink进阶使用 2.9 进阶使用 2.9.1 写入性能 Paimon的写入性能与检查点密切相关,因此需要更大的写入吞吐量: 增加检查点间隔,或者仅使用批处理模式。 增加写入缓冲区大小。 启用写缓冲区溢出。 如果您使用固定存储桶模式,请重新调整存储桶数量。
bin/flink run /opt/module/flink/opt/paimon-flink-action-0.9.0.jar mysql-sync-database --warehouse hdfs://xx:8020/paimon/hive --database test --mysql-conf hostname=xx --mysql-conf username=xx --mysql-conf password=xx --mysql-conf database-name=source_cdc --catalog-conf metastore=hive...
和其它数据湖不同的是,Paimon 是从流世界里面诞生的数据湖,所以它在对接流写流读、对接 Flink 方面都要比其它数据湖做得更好,详见后续的功能和性能对比。 Flink 结合 Paimon 打造的入湖架构如下: 步骤如下: 通过Flink CDC 一键全增量一体入湖到 Paimon,此任务可以配置 Tag 的自动创建,然后通过 Paimon 的能力,...
Paimon 中。在融合的同时,还支持历史 Json 格式构建任务、脏数据、Mertic、表血缘、可视化配置等功能。接下来通过内部实践案例进行深入分析。● 采集配置 Flink CDC 来源实时采集配置 Flink CDC 来源为 MySQL 时,向导模式配置还原范围采用全量+增量模式。首先,对数据库表进行全表快照读取,生成数据的一致性快照,以...
通过Flink CDC 一键全增量一体入湖到 Paimon,此任务可以配置 Tag 的自动创建,然后通过 Paimon 的能力,将 Tag 映射为 Hive 的分区,完全兼容原有 Hive SQL 的用法。 完,只需一步。 流式入湖方式可以有如下多种方式: Flink SQL 入湖,SQL 处理,可以有函数等 Streaming SQL 的处理 ...
Paimon CDC https://paimon.apache.org/docs/master/cdc-ingestion/overview/ Paimon CDC 是整合了 Flink CDC、Kafka、Paimon 的入湖工具,帮助你更好更方便的完成一键入湖。 你可以通过 Flink SQL 或者 Flink DataStream API 将 Flink CDC 数据写入 Paimon 中,也可以通过Paimon 提供的 CDC 工具来完成入湖。那这...
“Apache Paimon 是一个流批一体的湖存储格式,它只是一个格式,把数据存储在的 OSS 或者 HDFS 上。然后基于这样的湖格式,通过我们推出的 Flink CDC 就能实现一键入湖,也能通过 Flink、Spark 来流写、批写到 Paimon 中去,后面 Paimon 也将支持各种主流开源引擎的读以及 Flink、Spark 的流读。”李劲松补充道。
在Flink 1.19版本之后,引入了“流批融合”特性,允许CDC Source通过事件的方式通知下游算子(包括Paimon Sink)当前消费的数据属于全量阶段还是增量阶段。 基于这一事件,Paimon可以在全量阶段省去合并操作,直接将Change Log数据当作Data数据来使用。 性能提升:
ChunJun 融合 Flink CDC 增加了实时湖仓数据接入的方式,结合 FLink CDC 提供的 MySQL 数据到Paimon的数据同步能力,能够高效地将 MySQL 表数据实时写入 Paimon 中。在融合的同时,还支持历史 Json 格式构建任务、脏数据、Mertic、表血缘、可视化配置等功能。