最后由开源大数据平台E-MapReduce的StarRocks读取Paimon外部表,对外提供应用查询。 优势 该方案有如下优势: Paimon的每一层数据都可以在分钟级的延时内将变更传递给下游,将传统离线数仓的延时从小时级甚至天级降低至分钟级。 Paimon的每一层数据都可以直接接受变更数据,无需覆写分区,极大地降低了传统离线数仓数据更新与...
在这样的背景下,饿了么最终选择使用 StarRocks 和 Paimon 作为湖仓解决方案。实时湖仓落地探索 经过多次探索,我们确定了如上图所示的湖仓建设架构。主要的数据处理链路使用 Flink 进行 Paimon 的流读流写,Paimon 的数据存储在内部 OSS 集群上,并通过 DLF(Data Lake Formation)进行元数据管理。通过 Paimon 的...
StarRocks 是 Linux 基金会旗下的开源项目,专注于打造高性能、可扩展的分析型数据库,助力企业构建高效统一的湖仓新范式。目前,StarRocks 已在全球多个行业广泛应用,帮助众多企业提升数据分析能力。 « 上一篇 Pinterest:从 Druid 到 StarRocks,实现 6 倍成本效益比提升 ...
摘要:本文整理自饿了么大数据架构师、Apache Flink Contributor 王沛斌老师在8月3日 Streaming Lakehouse Meetup Online(Paimon x StarRocks,共话实时湖仓架构)上的分享。主要分为以下三个内容: 1.饿了么实时数仓演进之路 2.实时湖仓方案选型与探 3.实时湖仓规划及展望 01 饿了么实时数仓演进之路 1.1饿了么典型...
本文整理自饿了么大数据架构师、Apache Flink Contributor 王沛斌老师在8月3日 Streaming Lakehouse Meetup Online(Paimon x StarRocks,共话实时湖仓架构)上的分享。主要分为以下三个内容: 1. 饿了么实时数仓演进之路 2. 实时湖仓方案选型与探索 3. 实时湖仓规划及展望 ...
本文整理自饿了么大数据架构师、Apache Flink Contributor 王沛斌老师在8月3日 Streaming Lakehouse Meetup Online(Paimon x StarRocks,共话实时湖仓架构)上的分享。主要分为以下三个内容: 1. 饿了么实时数仓演进之路 2. 实时湖仓方案选型与探索 3. 实时湖仓规划及展望 ...
在对比 StarRocks、Trino 的性能时,StarRocks 在各个方面都表现比较出色。是什么原因使得 StarRocks 的性能如此出色呢?首先,StarRocks 的 JNI Connector 对 Paimon 进行了良好的适配。其次,StarRocks 支持过滤下推。上图右下展示了饿了么基于 StarRocks 的一个 profile 截图,可以看到 “city_id” 和“is_valid_...
摘要:本文整理自饿了么大数据架构师、Apache Flink Contributor 王沛斌老师在8月3日 Streaming Lakehouse Meetup Online(Paimon x StarRocks,共话实时湖仓架构)上的分享。主要分为以下三个内容: 1. 饿了么实时数仓演进之路 2. 实时湖仓方案选型与探 3. 实时湖仓规划及展望 ...
一、StarRocks+Paimon 湖仓分析的发展历程 StarRocks 的发展主要分为三个阶段: 1.x 版本主要关注性能,性能也是 StarRocks 迅速出圈的立足点,如今在绝大部分外表分析场景,无论是哪种格式,如 Hive、Hudi、Iceberg 等,都可以获得 3-5 倍以上的提升。
也可以通过 Flink、Spark、Hive、宽表合并的方式或者通过批写覆盖的方式写到 Paimon 中,这是基本的 Lakehouse 能力。也可以在后面批读,通过 Flink、Spark、StrarRocks、Trino 做一些分析,也可以这里通过 Flink 来流读 Paimon 里面的数据,流读生成的 Changelog,流读方面的特性,后面我也会介绍。