TPC-DS 对于测试报告有非常详细的要求, 在这里不再详细展开了, 大家可以通过目前已经发布的系统的测试报告来了解一下相关的细节. 官网报告查看地址: tpc.org/tpcds/results/t 点击单个系统名称, 进入如下页面, 找到 Full Disclosure Report 可以看到完整的信息披露报告. ...
查询的99条SQL的存放目录:/home/tpcds-tool/tpcds-3.2.0/query_templates(注:是99条SQL的介绍,里面的参数要进行修改) 更新维护测试的SQL存放目录:tpcds-3.2.0/tools/tpcds_source.sql *注:根据测试数据库的不同,要进行SQL的优化,主要是字段类型 测试流程(官方给定) 主要包含数据加载测试, 顺序执行测试, 吞...
./tpcds-setup.sh 数字,这里的数字代表数据规模,单位为GB。 比如./tpcds-setup.sh 10,支持成功后,会在Hive库中创建tpcds_text_10数据库,并且将mr产出的数据加载到Hive表中。这样我们就可以通过Spark SQL查询了。 6.2 进行TPC-DS测试 6.2.1 编写提交脚本 使用python脚本编写一个批量提交Spark SQL的功能。原理...
2、关于查询性能: 三组测试中,表都没有分区,系统也没有做深度定制优化,查询性能parquet最优、sql覆盖率greenplum最广。至于为什么kudu性能最差,在《【大数据之数据仓库】kudu性能测试报告分析》已经详细分析。另外,在tpcds测试过程中,部分原始tpcds产生的sql是跑不通的,所以做了适当修改。
摘要:TPC-DS测试会生成25张表,其中包括7张业务数据的事实表,17张业务数据的维度表,还有1张TPC-DS的系统表(与性能测试无关) 表类型 表名称 说明 事实表 catalog_sales 通过catalog渠道销售商品的订单信息 catalog_returns 通过catalog渠道销售商品的退阅读全文 ...
三组测试中,表都没有分区,系统也没有做深度定制优化,查询性能parquet最优、sql覆盖率greenplum最广。至于为什么kudu性能最差,在《【大数据之数据仓库】kudu性能测试报告分析》已经详细分析。另外,在tpcds测试过程中,部分原始tpcds产生的sql是跑不通的,所以做了适当修改。
Cloudera Impala测试集合可参考https://github.com/cloudera/impala-tpcds-kit。 Hadoop版本 Transwarp Data Hub (TDH) v3.4使用的是Hadoop2.2 版本,而ClouderaCDH 5.1.3使用的是Hadoop 2.3。HDFS 2.3增加了一些新的功能如DataNode Cache,因此能够更有效地减少磁盘读写。TDH下个版本会升级到Hadoop 2.3,届时我们会再次...
测试案例中包含各种业务模型(如分析报告型,迭代式的联机分析型,数据挖掘型等) 几乎所有的测试案例都有很高的IO负载和CPU计算需求 结论: TPC-C是针对OLTP的测试,TPC-H和TPC-DS则是针对OLAP的测试,在新兴的HATP数据库兴起是则TPC-C、TPC-H和TPC-DS都需要进行测试测试验证,不过大部分数据库目前对TPC-DS的99个SQL...
TPC-DS是基于商业决策支持(decisionsupport)场景的一个测试 规范。该测试规范中包含一个模拟商业情景的数据集,实现了各种具有 挑戓性的查询模板,覆盖了多种丌同类型的应用场景。TPC-DS规范提供 了一种简单、快速和可靠的方式来指导数据库测试。 在本文中,我们将介绍一个基于TPC-DS的数据库测试工具,该工 具的主要...
TPC-DS性能测试 测试机器配置:Intel(R) Xeon(R) Gold 5118 CPU @ 2.30GHz、256G内存,以比例因子为100生成数据后内存占用为100G左右。 接下来,我们需要记录并展示对 99 个查询进行 1,0000 次执行所需的时间情况(由于python 的线程限制,我们使用多进程方式进行测试,期间平均CPU 占用10个核),测试代码如下。