作者:李鹏霖(丁典),小红书-研发工程师,StarRocks Contributor & Apache Impala Committer 本文整理自小红书工程师在 StarRocks 年度峰会上的分享,介绍了小红书自助分析平台中,StarRocks 与 Iceberg 结合后,如何实现极速湖仓分析架构。与原有架构相比,湖上分析架构的 P90 查询性能提升了 3 倍,目前查询 响应时间 稳定...
在数据湖分析场景中,StarRocks作为OLAP查询引擎,需要高效地扫描存储在对象存储(如OSS)中的 Parquet 文件。以小红书自助分析平台为例,频繁访问相同的数据会导致重复的网络I/O开销,尤其是在数据是 T+1 产出时。此时,带宽资源往往不能充分用于多表数据集的Join操作。为了优化这一问题,StarRocks 自 2.5 版本引入了 Dat...
本文整理自小红书工程师在 StarRocks 年度峰会上的分享,介绍了小红书自助分析平台中,StarRocks 与 Iceberg 结合后,如何实现极速湖仓分析架构。 与原有架构相比,湖上分析架构的P90 查询性能提升了 3 倍,目前查询响应时间稳定在 10 秒以内。同时,采用 Iceberg 存储格式后,尽管数据量和行数保持不变,但实际存储空间相...
在数据湖分析场景中,StarRocks作为OLAP查询引擎,需要高效地扫描存储在对象存储(如OSS)中的 Parquet 文件。以小红书自助分析平台为例,频繁访问相同的数据会导致重复的网络I/O开销,尤其是在数据是 T+1 产出时。此时,带宽资源往往不能充分用于多表数据集的Join操作。为了优化这一问题,StarRocks 自 2.5 版本引入了 Dat...
在阿里云团队的全力保障下,小红书的技术团队顺利完成了割接任务。他们就像一群专业的搬家团队,小心翼翼地将每一份数据都搬到了新的“家”中。最终,在2024年11月,小红书的数据湖迁徙项目正式宣告结束,成功迁移了500PB的数据,任务量达到了惊人的11万,参与人数更是多达1500人,涉及部门40多个。3、数据湖焕发新生...
🌊💙 贝加尔湖,被誉为世界上最深的淡水湖,它的美丽如同一颗璀璨的蓝宝石,深邃而迷人。站在湖边,你可以感受到那份恬淡与深沉,仿佛整个世界都安静了下来。🏔️❄️ 远处的山顶,白雪皑皑,与盛夏的晚空中的瑰丽云彩相映成趣,仿佛是大自然最精美的画卷。🌌✨ 在这里,你可以流连忘返,让月光洒满湖面,感受...
简介:小红书研发工程师李鹏霖(丁典)在StarRocks年度峰会上分享了如何通过结合StarRocks和Iceberg实现极速湖仓分析架构。新架构使P90查询性能提升了3倍,查询响应时间稳定在10秒以内,存储空间减少了一半。RedBI自助分析平台支持灵活、快速的即席查询,优化了排序键和Join操作,引入DataCache功能显著提升查询性能。未来将探索近实...
🌾在我的旅行地图上,呼伦贝尔一直是一望无际的大草原的代名词,但我没想到,在这片草原的尽头,竟然隐藏着一片如此壮丽的湖泊——呼伦湖。🏞呼伦湖,不仅是内蒙古的第一大湖,更是中国的第五大淡水湖。站在湖边,用无人机拍摄也难以望到湖的对岸,这种仿佛置身于海边的错觉,真是让人心旷神怡!🌅...
数据湖中的数据就可以提供批读取和批存储的能力。对于 Iceberg 中的数据如何去读取的问题,我们会根据实际情况选取一些高性能的分析引擎,比如 StarRocks、小红书自研的 RedCK 等来读取离线数据。 2. 产品能力 这里我们总结了 6 点流批统一存储所提供的能力。 ① 流批统一:同时提供流存储和批存储的读写能力,构建多...
经过一年奋战,小红书已把业界体量最大的数据湖0故障迁上阿里云。据统计,该项目共有1500人参与,迁移数据500PB。作为中国头部互联网公司之一,小红书月活已过3亿,其数据湖存储了过去11年的所有原始数据,包括结构化、半结构化和非结构化数据。近年来,随着业务的高速增长,小红书在线处理数据的需求不断增加,同时离线...