数据集概述 TPC - H 是一个被广泛用于决策支持系统性能测试的数据库基准测试数据集。它模拟了一个商业数据仓库的环境,包括供应商(Supplier)、零件(Part)、客户(Customer)、订单(Orders)等多种商业对象之间复杂的关系。 数据集规模 本数据集占用 322MB 数据空间。本数据集基于TPC - H生成的 1GB 进行改造,仅保留...
1、数据集下载 TPC-H数据集:https://github.com/gregrahn/tpch-kit 可采用gcc下载或者直接下载zip包,然后解压即可。 具体使用方法可以查看dbgen文件目录下的:README文件 2、数据表的创建与约束 在下载的文件包下的dbgen文件夹下,有2个文件,分别是dss.ddl、dss.ri。 (1)dss.ddl是创建表的语句,将里面的内容放...
(在文件地址栏输入cmd)。输入命令dbgen -h 5.运行完后直接输入dbgen -vf -s XXX就可以生成你想要的数据了。这里的XXX表示想要生成的数据量(单位GB) 6.生成结束后,就能在dbgen文件夹下面看到生成的数据集了。生成完毕(20GB) 二.导入数据 1.新建一个数据库用于导入数据 2.建表sql 3.建立表约束 4.导入数据 ...
TPC-DI:模拟多种类型的大数据源的ETL过程; TPC-DS:模拟大型零售业务的系统,该系统主要用于BI和决策支持,数据量和OLAP查询复杂度都很高,是TPC数据集中最大的; TPC-E:模拟证券经纪人的系统,该系统主要用于提供大量查询的OLTP服务; TPC-H:可以近似视为TPC-DS的简化版本。 最近正在写一篇大数据领域SQL优化器(基于...
TPC-H通过在受控条件下对标准数据库执行一组查询来评估各种决策支持系统的性能。TPC-H查询: 回答现实世界中的商业问题 模拟生成的即席查询 比大多数OLTP事务复杂得多 包含丰富的操作员范围和选择性约束 在被测系统的数据库服务器组件上生成密集活动 针对符合特定人口和规模要求的数据库执行 ...
TPC-H 是一个决策支持基准,由一套面向业务的临时查询和并发数据修改组成。选择的查询和填充数据库的...
Data Lake Analytics是阿里云提供的一种大数据处理服务,可以用于对存储在OSS(对象存储Data Lake Analytics是阿里云提供的一种大数据处理服务,可以用于对存储在OSS(对象存储服务)中的大量数据进行分析和处理,TPC-H是一个广泛使用的基准测试集,包含了多个查询任务,用于评估数据库系统的性能,本文将介绍如何使用Data Lake An...
本次测试基于TPC-H 100GB的数据集,运行该Benchmark下的22条标准测试SQL。本文在开启自研计算引擎Laser和Greenplum原生计算引擎两种场景下进行了测试,两种场景的测试性能结合下图。通过测试结果可以看到,Laser计算引擎对比原生计算引擎带来了显著的性能提升,总执行时间仅原生计算引擎的五分之一左右。 Query AnalyticDB Postgre...
TPC-H 在内的标准测试集通常和实际业务场景差距较大,并且部分测试会针对测试集进行参数调优。所以标准测试集的测试结果仅能反映数据库在特定场景下的性能表现。建议使用实际业务数据进行进一步的测试。 测试环境 数据库环境。 环境配置项 配置说明 地域和可用区 华东1(杭州)地域,可用区K。 规格 64核512 GB 磁盘 80...