这段时间开始调研使用 StarRocks 做准实时数据仓库:flink cdc 实时同步数据到 StarRocks,然后在 StarRocks 中做分层计算,直接把 StarRocks 中的 ADS 层提供给 BI 查询。架构如下: 由于用到的表比较多,不能用 Flink SQL 给每个表都做个 CDC 的任务(任务太多不好维护、对数据库又可能有些压力),就用 Flink St...
从MySQL 同步至 Flink 需要使用 Flink CDC,本文使用 Flink CDC 的版本小于 3.0,因此需要借助 SMT 同步表结构。 然而如果使用 Flink CDC 3.0,则无需借助 SMT,即可将表结构同步至 StarRocks,甚至可以同步整个 MySQL 数据库、分库分表的结构,同时也支持同步 schema change。具体的使用方式,参见从 MySQL 到 StarRocks...
hostname: 152.136.53.49 port: 3306 username: root password: 'xx-12345' tables: test.teachers,test.teacher -- 指定表同步到StarRocks 配合route sink到指定的库表 server-id: 5400-5404 sink: type: starrocks name: Starrocks Sink jdbc-url: jdbc:mysql://127.0.0.1:9030 load-url: 127.0.0.1:8030...
Flink CDC 是由 Flink 社区开发的集数据采集、数据转换、数据装载一体的组件,可以直接从 MySQL、PostgreSQL、Oracle 等数据源直接读取全量或增量数据并写入下游的 OLAP 数据存储系统。使用 Flink CDC 后,可以简单高效的抓取上游的数据变更,同步到下游的 OLAP 数据仓库中。构建一体化数据传输链路 在传统的实时数仓建设...
全量能过去说明数据库的配置信息正常,增量过不去,可能的原因是查询增量的语法不正确。
一般来说,StarRocks X Flink 构建开源实时数仓生态架构分为五层: 第一层是数据源。数据源可以是多种多样的,比如说 MySQL Binlog、爬虫数据或者是平面文件; 第二层是数据采集层。用户使用多种不同的CDC工具,比如 Canal、Debezium 拉取上游的增量数据,通常会将数据写入到 Kafka 中,而后在通过 Flink 消费 Kafka 中...
DataFlow集群、EMR Serverless StarRocks实例和RDS MySQL实例需要在同一个VPC下。 DataFlow集群和EMR Serverless StarRocks实例均须开启公网访问。 RDS MySQL须为5.7及以上版本。 操作流程 步骤一:准备测试数据 步骤二:配置同步工具和启动Flink任务 步骤三:验证数据同步结果 ...
即使binlog已经开启,从MySQL修改数据到数据同步至StarRocks的过程中可能会有一定的延迟。延迟原因可能是网络延迟、Flink CDC处理速率、下游系统处理能力等因素。 配置问题: 你提到了scan.incremental.close-idle-reader.enabled=true,这个配置项主要是关闭空闲读取器以释放资源,而不是直接影响实时同步的能力。对于实时同步...
MySQL 的分库分表同步:将 MySQL 一个库下的多个表同步到 StarRocks 的一张表中。可以通过 YAML 文件的 route 部分来描述上下游表的映射关系。 从这两个例子可以看出,基于 CDC 框架,用户只需要简单地描述同步逻辑,而不需要关心具体的实现细节,非常方便。 StarRocks 社区也提供了快速上手的8分钟示例 Demo,大家可...
EMR Serverless StarRocks实例须开启公网访问。 Flink集群中的Flink须为1.15-vvr-6.0.3及以上版本。 步骤一:准备测试数据 创建测试的数据库和账号,详情请参见创建数据库和账号。 创建完数据库和账号后,需要授权测试账号的读写权限。 说明 本文创建的数据库名称...