StarRocks 的架构设计融合了 MPP 数据库和分布式系统的设计思想,具有极简的架构特点。整个系统由前端节点(FE)、后端节点(BE 和 CN)组成。这种设计使得 StarRocks 在部署和维护上更为简单,同时提升了系统的可靠性和扩展性。 向量化引擎:StarRocks 采用向量化查询引擎,通过并行执行和减少数据访问次数,极大提升了数据处理...
在规模方面,StarRocks 目前可以替代大约十几台的 Hadoop 集群。这种规模的中小企业客户更倾向于采用 StarRocks,因为它可以实现技术栈的统一,降低维护成本。用户无需深入了解 Flink、Spark、Hive 和 HDFS 等开源大数据引擎,只需掌握 StarRocks 基本的 SQL 语法和表结构设计,即可轻松上手使用。 StarRocks 始终致力于简化...
在微信内部,湖上建仓的架构经历了从 Presto + Hive 到 StarRocks + Iceberg 的演变过程,通过使用 StarRocks 替代 Presto,数据的时效性从小时/天级提高到了分钟级,同时查询效率从分钟级提高到了秒级/分钟级,其中80%的大查询用 StarRocks 解决,秒级返回,剩下的超大查询通过 Spark 来解决。与Presto 相比,S...
StarRocks是新一代极速全场景MPP(Massively Parallel Processing)数据库,致力于构建极速和统一分析体验。 StarRocks兼容MySQL协议,可使用MySQL客户端和常用BI工具对接StarRocks来分析数据。 StarRocks采用分布式架构: 对数据表进行水平划分并以多副本存储。 集群规模可以灵活伸缩,支持10 PB级别的数据分析。
StarRocks+Paimon 的最大优势是查询快,可以用来替代传统的 OLAP 分析方案。例如使用 Paimon 为底座的数据湖,假设用 Presto、Trino 或者 Impala 去查的速度作为基准,不做任何其它更改,仅是将查询引擎换成 StarRocks,就可以带来三倍的性能提升。这主要是由于 StarRocks 有着非常优秀的 CBO 优化器,以及完整的向量化执...
StarRocks的数据模型主要有四种,分别为duplicate key、uniq key、agg模型和primary key模型,他们对于count的实现有比较大的区别。具体区别如下: duplicate key:该模型不需要做merge操作,所以count比较快。 uniq key和agg模型:对count操作的实现涉及多版本merge的操作,所以相对要慢一些。 如果key是string类型,则理论上coun...
StarRocks 是新一代极速全场景 MPP 数据库。 StarRocks 充分吸收关系型 OLAP 数据库和分布式存储系统在大数据时代的优秀研究成果,在业界实践的基础上,进一步改进优化、升级架构,并增添了众多全新功能,形成了全新的企业级产品。 StarRocks 致力于构建极速统一分析体验,满足企业用户的多种数据分析场景,支持多种数据模型(...
大规模并行处理数据库StarRocks是新一代极速全场景 MPP(大规模并行处理)数据库。它充分吸收关系型 OLAP 数据库和分布式存储系统在大数据时代的优秀研究成果,在业界实践的基础上,进一步改进优化、升级架构,并增添了众多全新功能,形成了全新的企业级产品。自 2021 年 9 月正式开源。从 3.0 版本起正式支持存算...
1.3StarRocks基本概念 FE:FrontEnd简称FE,是StarRocks的前端节点,负责管理元数据,管理客户端连接,进行查询规划,查询调度等工作。 BE:BackEnd简称BE,是StarRocks的后端节点,负责数据存储,计算执行,以及compaction,副本管理等工作 Broker:StarRocks中和外部HDFS/对象存储等外部数据对接的中转服务,辅助提供导入导出功能。