这段时间开始调研使用 StarRocks 做准实时数据仓库:flink cdc 实时同步数据到 StarRocks,然后在 StarRocks 中做分层计算,直接把 StarRocks 中的 ADS 层提供给 BI 查询。架构如下: 由于用到的表比较多,不能用 Flink SQL 给每个表都做个 CDC 的任务(任务太多不好维护、对数据库又可能有些压力),就用 Flink St...
StarRocks是一个开源的分析型数据库,可以用于执行复杂的分析任务和实时的数据查询。它以列式存储的方式存储数据,并且支持高并发的查询操作。StarRocks提供了SQL接口,可以方便用户进行数据的查询和分析。 结合Flink和StarRocks,可以构建一个实时数据分析的系统。Flink作为数据处理引擎,用于实时地处理数据流;而StarRocks则提...
有没有大佬用JAVA代码做过flinkcdc 同步MySQL整库数据到starrocks的,或者类似的需求,请教一下思路楼主...
publicclassStarRocksStreamLoad{privatefinalstaticStringSTARROCKS_HOST="xxx.com";privatefinalstaticStringSTARROCKS_DB="test";privatefinalstaticStringSTARROCKS_TABLE="stream_test";privatefinalstaticStringSTARROCKS_USER="root";privatefinalstaticStringSTARROCKS_PASSWORD="xxx";privatefinalstaticintSTARROCKS_HTTP_P...
FlinkCDC是Apache Flink的一组源连接器,使用更改数据捕获(CDC)从不同的数据库摄取更改。项目诞生于2020年,底层也是封装的Debezium。 github: https://github.com/ververica/flink-cdc-connectors 2)同步原理 同Debezium。 2.1.3 总结 常见开源CDC方案比较如下: ...
6、通过sqlId+dialect模式,可针对特定数据库写sql,sqltoy根据数据库类型获取实际执行sql,顺序为: dialect_sqlId->sqlId_dialect->sqlId,如数据库为mysql,调用sqlId:sqltoy_showcase,则实际执行:sqltoy_showcase_mysql<sql id="sqltoy_showcase"> <value> <![CDATA[ select * from sqltoy_user_log t where ...
flink-jobs提供了数据源管理模块,通过flink-jobs运行Flink SQL会变得极其简单。使用flink-jobs-clients可以实现基于Java API启动flink-jobs应用程序,还可以将flink任务实现通过XML配置文件来管理。一个典型的flink-jobs部署架构如下:当然,如果您选择仅使用Flink CDC,那么以上的Debezium和Kafka就不需要了。总体而言,flink-...
MySQL Performance Analyzer:一个用于MySQL性能监控和分析的开源项目,由Yahoo开源。 Spring Boot Startup Report:Spring Boot启动报告库生成交互式Spring Boot应用程序启动报告,让你了解影响应用程序启动时间的因素,并可能有助于优化它。 Spring Startup Ananlyzer:Spring Startup Analyzer生成交互式Spring应用程序启动报告,...
Flink1.18.1和CDC2.4.1 本地没问题 提交任务到服务器 报错java.lang.NoClassDefFoundError: Could not initialize class io.debezium.connector.mysql.MySqlConnectorConfig 这个错误是因为在服务器上缺少了Debezium的MySQL连接器依赖。你需要将Debezium的MySQL... 问答...
otter 伪装 mysql 从库同时要去做 etl 逻辑,把 cdc 干的活和实时 ETL 的活同时干了,耦合度较高。 2.2 实时架构 1.0 2.2.1 flink+kafka+ClickHouse 在上述调研尝试后都没有解决根本的问题,我们开始把目标建立标准的实时数仓的思路上来,在 20 年 olap 没有太多的可选项,我们把目标放在 clickhouse 上。