列式存储(Column-oriented Storage)并不是一项新技术,最早可以追溯到 1983 年的论文 Cantor。然而,受限于早期的硬件条件和使用场景,主流的事务型数据库(OLTP)大多采用行式存储,直到近几年分析型数据库(OLAP)的兴起,列式存储这一概念又变得流行。 总的来说,列式存储的优势一方面体现在存储上能节约空间、减少 IO,...
在上一篇文章 《处理海量数据:列式存储综述(存储篇)》中,我们介绍了几种 Apache ORC、Dremel 等几种典型列式存储的数据组织格式。实践中,很多数据系统构建在 HDFS 等分布式文件系统之上,使用这些规范的格式…
列式存储(Column-oriented Storage)的历史可以追溯到1983年的Cantor论文,但直到近年分析型数据库(OLAP)的兴起,这一概念再度受到关注。相比于传统的事务型数据库(OLTP)多采用行式存储,列式存储在存储和计算方面展现出独特优势。列式存储通过将同一列的数据紧邻存放,显著节约空间并减少IO操作。与行...
在大数据时代的洪流中,列式存储(Column-oriented Storage)如同一颗璀璨的明星,自1983年Cantor的开创性论文以来,随着技术的进步和业务需求的变化,它的魅力逐渐显现。早先,行式存储(Row-oriented)在OLTP(在线事务处理)的世界中占据主导,但随着OLAP(在线分析处理)的兴起,列式存储以其独特的优势崭...