TPC-DS数据来源 进行TPCDS的数据来源需要我们自己生产,参考Spark Commiter和PMC的项目 spark-tpcds-datagen,具体的生产数据命令如下: nohup ./bin/dsdgen --output-location /tmp/spark-tpcds-data --overwrite --scale-factor 600 --partition-tables --num-partitions 100 &>dsdgen.log & 生产了大约200GB的数...
火山引擎 LAS Spark 相比社区有较大的性能提升,这些性能提升一部分来源于厂内已有的性能优化,例如AdaptiveShuffledHashJoin、AdaptiveFileSplit 等;还有一部分来源于对 TPC-DS 数据集的研究和挖掘。在对 TPC-DS 的 workload 的测试和研究中,Spark SQL 团队发现了一些潜在的性能优化点。 火山引擎 LAS Spark 在 TPC-...
首先,你需要准备一个符合TPC-DS规范的数据集,并使用Apache Hive或SparkSQL进行处理。然后,设计一系列基准测试,以评估查询执行时间、内存使用、CPU消耗等关键性能指标。在执行测试时,应确保测试环境与生产环境尽可能相似,包括硬件配置、软件版本、网络状况等,以保证测试结果的可靠性和可比性。通过对比不...
--conf spark.yarn.submit.waitAppCompletion=true \ --conf spark.driver.cores=2 \ --conf spark.driver.memory=4G \ --conf spark.executor.cores=2 \ --conf spark.executor.memory=8G \ --conf spark.executor.instances=25 \ --conf spark.executor.memoryOverhead=2048 \ --conf spark.default.par...
TPC-DS 是一个模拟复杂数据仓库环境的测试基准,LAS Spark 通过采用规则优化、缓存优化和运行时优化三类优化策略,实现了超越社区版本的巨大性能提升,且已在内部生产环境得到验证。文末更有专属彩蛋,新人优惠购福利,等着你来解锁! 本篇文章提纲如下: TPC-DS 简介...
2 测试数据 tpcds parquet 10g tpcds orc 10g 3 测试对象 hive-2.3.4 【set mapreduce.map.memory.mb=4096; set mapreduce.map.java.opts=-Xmx3072m;】【yarn 200g*3】 hive-2.3.4 on spark-2.4.0 【--master yarn --driver-memory 4g --num-executors 10 --executor-memory 4g】 ...
6.1.5 生产测试数据和表 ./tpcds-setup.sh 数字,这里的数字代表数据规模,单位为GB。 比如./tpcds-setup.sh 10,支持成功后,会在Hive库中创建tpcds_text_10数据库,并且将mr产出的数据加载到Hive表中。这样我们就可以通过Spark SQL查询了。 6.2 进行TPC-DS测试 ...
在【脚本作业开发】中导入Spark TPCDS测试所用的SparkJar、SparkScala、Shell作业。 在generateData作业【主程序包路径】中上传文件https://poc-resources.bj.bcebos.com/spark-sql-perf-assembly-0.5.1-SNAPSHOT.jar 至bos bucket,使得【主程序包路径】为刚刚上传文件的bos路径,runTpcds作业中修改【主程序包路径】...
Spark做TPC-DS性能测试 背景最近由于在做上云的工作,并且公司离线部分引擎是Spark,所以做了一次基于TPC-DS性能比对测试。云上和云下的机器主要不同如下:不同点云上云下存储OSSHDFS机器CPUIntel®Xeon®Platinum 8269CY CPU@2.50GHzIntel®Xeon®Gold 6626 CPU@2.70GHzTPC-DS是什么如下解释:TPC-DS is a ...
因此,在将旧的UI数据从内存中清除之前,UI数据会占用大量内存,从而导致执行10T的TPCDS测试套时出现Driver内存不足的现象。 规避措施: 根据业务需要,配置合适的需要保留的Job和Stage的UI数据个数,即配置“spark.ui.retainedJobs”和“spark.ui.retainedStages”参数。详细信息请参考常用参数中的表13。 如果需要保留的...