在这样的背景下,饿了么最终选择使用 StarRocks 和 Paimon 作为湖仓解决方案。实时湖仓落地探索 经过多次探索,我们确定了如上图所示的湖仓建设架构。主要的数据处理链路使用 Flink 进行 Paimon 的流读流写,Paimon 的数据存储在内部 OSS 集群上,并通过 DLF(Data Lake Formation)进行元数据管理。通过 Paimon 的...
首先,StarRocks 的 JNI Connector 对 Paimon 进行了良好的适配。其次,StarRocks 支持过滤下推。上图右下展示了饿了么基于 StarRocks 的一个 profile 截图,可以看到 “city\_id” 和“is\_valid_order” 这两个字段实现了有效的下推。此外,StarRocks 还具备高效的向量化执行引擎,并且可支持对 Paimon 的 RO 表...
StarRocks 是 Linux 基金会旗下的开源项目,专注于打造高性能、可扩展的分析型数据库,助力企业构建高效统一的湖仓新范式。目前,StarRocks 已在全球多个行业广泛应用,帮助众多企业提升数据分析能力。 « 上一篇 Pinterest:从 Druid 到 StarRocks,实现 6 倍成本效益比提升 ...
因此,尝试通过构建 StarRocks 内表与 Paimon 相结合的方式,来实现查询加速。目前,已在内部测试了 EMR StarRocks 在 HUE 上的支持,这意味着用户可以通过 HUE 界面访问 EMR StarRocks,从而进行实时场景的数据开发与测试。 此外,虽然湖仓交互平台已经支持 StarRocks 查询,并且内部已经实现了打通,但在实时场景中,用户...
摘要:本文整理自饿了么大数据架构师、Apache Flink Contributor 王沛斌老师在8月3日 Streaming Lakehouse Meetup Online(Paimon x StarRocks,共话实时湖仓架构)上的分享。主要分为以下三个内容: 饿了么实时数仓演进之路 实时湖仓方案选型与探 实时湖仓规划及展望 ...
本文整理自饿了么大数据架构师、Apache Flink Contributor 王沛斌老师在8月3日 Streaming Lakehouse Meetup Online(Paimon x StarRocks,共话实时湖仓架构)上的分享。主要分为以下三个内容: 1. 饿了么实时数仓演进之路 2. 实时湖仓方案选型与探索 3. 实时湖仓规划及展望 ...
摘要:本文整理自饿了么大数据架构师、Apache Flink Contributor 王沛斌老师在8月3日 Streaming Lakehouse Meetup Online(Paimon x StarRocks,共话实时湖仓架构)上的分享。主要分为以下三个内容: 1. 饿了么实时数仓演进之路 2. 实时湖仓方案选型与探 3. 实时湖仓规划及展望 ...
本文基于Flink+Paimon搭建流式湖仓的方案架构如下: Flink将数据源写入Paimon,形成ODS层。 Flink订阅ODS层的变更数据(Changelog)进行加工,形成DWD层再次写入Paimon。 Flink订阅DWD层的Changelog进行加工,形成DWS层再次写入Paimon。 最后由开源大数据平台E-MapReduce的StarRocks读取Paimon外部表,对外提供应用查询。 优...
京东物流基于Flink & StarRocks的湖仓建设实践 简介:本文整理自京东物流高级数据开发工程师梁宝彬在Flink Forward Asia 2024的分享,聚焦实时湖仓的探索与建设、应用实践、问题思考及未来展望。内容涵盖京东物流通过Flink和Paimon等技术构建实时湖仓体系的过程,解决复杂业务场景下的数据分析挑战,如多维OLAP分析、大屏监控等...
摘要:本文整理自饿了么大数据架构师、Apache Flink Contributor 王沛斌老师在8月3日 Streaming Lakehouse Meetup Online(Paimon x StarRocks,共话实时湖仓架构)上的分享。主要分为以下三个内容: 1.饿了么实时数仓演进之路 2.实时湖仓方案选型与探 3.实时湖仓规划及展望 01 饿了么实时数仓演进之路 1.1饿了么典型...