StarRocks 的架构设计融合了 MPP 数据库和分布式系统的设计思想,具有极简的架构特点。整个系统由前端节点(FE)、后端节点(BE 和 CN)组成。这种设计使得 StarRocks 在部署和维护上更为简单,同时提升了系统的可靠性和扩展性。 向量化引擎:StarRocks 采用向量化查询引擎,通过并行执行和减少数据访问次数,极大提升了数据处理...
StarRocks整体对外暴露的是一个MySQL协议接口,支持标准SQL语法。用户通过已有的MySQL客户端能够方便地对StarRocks里的数据进行查询和分析。 数据管理 在StarRocks里,一张表的数据会被拆分成多个Tablet,而每个Tablet都会以多副本的形式存储在BE节点中。StarRocks通过分区、分桶两种划分方式将Table划分成Tablet。通过分区机制...
数据湖中的有价值数据可以流入 StarRocks 进行关联查询;而 StarRocks 中的隐藏价值数据或价值不高的数据也可以流入数据湖,以低成本方式存储。 在经过一系列的建模后,StarRocks 中的数据可以服务于多种消费场景,比如说报表业务、实时指标监控、智能多维分析、客群圈选、自助 BI 业务。 三、架构和功能特性 StarRocks ...
1.3StarRocks基本概念 FE:FrontEnd简称FE,是StarRocks的前端节点,负责管理元数据,管理客户端连接,进行查询规划,查询调度等工作。 BE:BackEnd简称BE,是StarRocks的后端节点,负责数据存储,计算执行,以及compaction,副本管理等工作 Broker:StarRocks中和外部HDFS/对象存储等外部数据对接的中转服务,辅助提供导入导出功能。
StarRocks 是 C++ 实现的 Native 向量化引擎,而 Trino 是 Java 实现的,使用了有限的向量化技术。向量化技术帮助 StarRocks 更高效地利用 CPU 处理能力。StarRocks 具有以下特点:•可以充分利用列式数据管理的效率。StarRocks 从列式存储中读取数据,在内存中管理数据的方式,以及算子处理数据的方式都是列式的,...
大规模并行处理数据库StarRocks是新一代极速全场景 MPP(大规模并行处理)数据库。它充分吸收关系型 OLAP 数据库和分布式存储系统在大数据时代的优秀研究成果,在业界实践的基础上,进一步改进优化、升级架构,并增添了众多全新功能,形成了全新的企业级产品。自 2021 年 9 月正式开源。从 3.0 版本起正式支持存算...
StarRocks是新一代极速全场景MPP数据库。 StarRocks充分吸收关系型OLAP数据库和分布式存储系统在大数据时代的优秀研究成果,在业界实践的基础上,进一步改进优化、升级架构,并增添了众多全新功能,形成了全新的企业级产品。 StarRocks致力于构建极速统一分析体验,满足企业用户的多种数据分析场景,支持多种数据模型(明细模型、聚...
StarRocks是新一代极速全场景MPP(Massively Parallel Processing)数据库,致力于构建极速和统一分析体验。 StarRocks兼容MySQL协议,可使用MySQL客户端和常用BI工具对接StarRocks来分析数据。 StarRocks采用分布式架构: 对数据表进行水平划分并以多副本存储。 集群规模可以灵活伸缩,支持10 PB级别的数据分析。 支持MPP框架,并行...
StarRocks的数据模型主要有四种,分别为duplicate key、uniq key、agg模型和primary key模型,他们对于count的实现有比较大的区别。具体区别如下: duplicate key:该模型不需要做merge操作,所以count比较快。 uniq key和agg模型:对count操作的实现涉及多版本merge的操作,所以相对要慢一些。 如果key是string类型,则理论上coun...