Parquet 用于 Spark SQL 时表现非常出色。它不仅提供了更高的压缩率,还允许通过已选定的列和低级别的读取器过滤器来只读取感兴趣的记录。因此,如果需要多次传递数据,那么花费一些时间编码现有的平面文件可能是值得的。免责声明:spark-sql-perf 工作负载源自 TPC DS 基准,它与已公布的 DS TPC 基准测试结果没有...
默认情况下,使用runExperiment会在后台线程中进行,最终将结果以JSON格式保存到resultLocation下时间戳命名的子目录中,例如$resultLocation/timestamp=1429213883272 import com.databricks.spark.sql.perf.tpcds.TPCDS val tpcds = new TPCDS (sqlContext) val databaseName = "tpcds" sql(s"use $databaseName") ...
$ bin/run --help spark-sql-perf 0.2.0 Usage: spark-sql-perf [options] -b <value> | --benchmark <value> the name of the benchmark to run -m <value> | --master <value the master url to use -f <value> | --filter <value> a filter on the name of the queries to run -i ...
spark-sql-perf是一个 spark sql 性能测试框架,可以用来进行一些基准测试。 测试环境: spark 2.4.0 spark-sql-perf_2.11-0.5.0-SNAPSHOT 测试 tpcds-kit 通过tpcds-kit生成 TPC-DS 数据。 sudo yum install gccmakeflex bison byacc git git clone https://github.com/databricks/tpcds-kit.git cd tpcds...
Hi experts @davies Now i am using the spark-sql-perf to generate TPC-DS 1TB data with enabling partitionTables like tables.genData("hdfs://ip:8020/tpctest", "parquet", true, true, false, false, false) . But found some of big tables(e.g.,...
spark-sql-perf 源码地址:GitHub - databricks/spark-sql-perf 按照github上的文档按照步骤进行编译就可以了,编译后需要的是target/scala-2.12目录下的jar包:spark-sql-perf-assembly-0.5.1-SNAPSHOT.jar 注意事项:spark-sql-perf 项目是sbt进行项目管理的可以使用阿里的源进行编译,就很容编译成功 ...
val df = sqlContext.read.parquet(filename) df.show df.registerTempTable(tablename)要对比性能,然后可以分别对 TEXT 和 PARQUET 表运行以下查询(假设所有其他 tpc-ds 表也都已转换为 Parquet)。您可以利用 spark-sql-perf 测试工具包来执行查询测试。举例而言,现在来看看 TPC-DS 基准测试中的查询 #...
1.5 ClickHouse as Spark SQL Backend 基于前面的分析,我们很容易想到可以将 ClickHouse 改造为一个 Spark 的 SQL 引擎内核,完成 Task 中的数据处理逻辑。 该设想能够实现的前提是,ClickHouse 本身是个成熟的 OLAP 引擎,其对 SQL 语法有较为全面的实现,也就是说 Spark 中的绝大部分 SQL 算子在 ClickHouse 中都能...
本文是一个OLAP数据源接入到SparkSQL并进行优化的过程。本文总结了调优过程当中一些可以借鉴与讨论的地方,鉴于本人水平有限,还请有这方面调优经验的同学不吝赐教。 优化主要是从两个方面来考虑: 集群粒度的调优,包括CPU与内存分配,数据分布,shuffle等。数据存储在HDFS上,Hxxx接入SparkSQL时已经保证了Data Locality,所以...
为了了解 Parquet 有多么强大,我们从 spark-perf-sql 中挑选了 24 个从 TPC-DS 中衍生的查询来完成比较(总共有 99 个查询,一些查询在 1TB 的缩放比例下无法用于平面的 CSV 数据文件。更多内容参见下文)。这些查询代表了 TPC-DS 中的所有类别:报告、即席报告、迭代和数据挖掘。我们还要确保包含了短查询(查询12...