火山引擎 LAS Spark 相比社区有较大的性能提升,这些性能提升一部分来源于厂内已有的性能优化,例如AdaptiveShuffledHashJoin、AdaptiveFileSplit 等;还有一部分来源于对 TPC-DS 数据集的研究和挖掘。在对 TPC-DS 的 workload 的测试和研究中,Spark SQL 团队发现了一些潜在的性能优化点。 火山引擎 LAS Spark 在 TPC-...
TPC-DS 1T 的性能对比中,火山引擎 LAS Spark 3.2 达到了社区 3.2 性能的 2.5x。 LAS Spark 团队自研优化 火山引擎 LAS Spark 相比社区有较大的性能提升,这些性能提升一部分来源于厂内已有的性能优化,例如AdaptiveShuffledHashJoin、AdaptiveFileSplit 等;还有一部分来源于对 TPC-DS 数据集的研究和挖掘。在对 TPC-...
TPC-DS数据来源 进行TPCDS的数据来源需要我们自己生产,参考Spark Commiter和PMC的项目 spark-tpcds-datagen,具体的生产数据命令如下: nohup ./bin/dsdgen --output-location /tmp/spark-tpcds-data --overwrite --scale-factor 600 --partition-tables --num-partitions 100 &>dsdgen.log & 生产了大约200GB的数...
首先,你需要准备一个符合TPC-DS规范的数据集,并使用Apache Hive或SparkSQL进行处理。然后,设计一系列基准测试,以评估查询执行时间、内存使用、CPU消耗等关键性能指标。在执行测试时,应确保测试环境与生产环境尽可能相似,包括硬件配置、软件版本、网络状况等,以保证测试结果的可靠性和可比性。通过对比不...
Spark+Alluxio+S3组合是当前非常流行的数据分析技术栈。Alluxio沙盒(sandbox)技术是对部署在公有云环境多节点集群上的Spark+Alluxio+S3组合进行测试的最简单方法。沙盒集群已经完成全部配置,可供用户运行从hello-world示例程序到TPC-DS基准测试套件(TPC-DS benchmark suite)的各种应用程序。实践出真知,您可以实际运行基准...
4.1 TPCDS 性能 我们使用 10T 规模的 TPCDS 进行了性能测试,整体上有 2.3 倍的性能提升。 这里2.3 倍性能提升的意思是,对于所有 TPCDS SQL 的执行耗时总和,Spark Vanilla(原生 Spark)总耗时是 Spark Native 的 2.3 倍。其在应用场景的意义是,对于一个 10 台机器的空闲集群,用 Spark Vanilla 运行一个任务需...
基于没有统计数据的 1TB TPC-DS 基准,Spark 3.0 可以使 q77 的速度提高8倍,使 q5 的速度提高2倍,而对另外26个查询的速度提高1.1倍以上。可以通过设置 SQL 配置 spark.sql.adaptive=true 来启用 AQE,这个参数默认值为 false 编辑 支持GPU等计算加速调度 :大规模机器学习中,计算迭代时间会比较长,AI...
内存:256G CPU:32Core (Intel(R) Xeon(R) CPU E5-2640 v3 @ 2.60GHz) Disk(系统盘):300G Disk(数据盘):1.5T*1 2 测试数据 tpcds parquet 10g tpcds orc 10g 3 测试对象 hive-2.3.4 【set mapreduce.map.memory.mb=4096; set mapreduce.map.java.opts=-Xmx3072m;】【yarn 200g*3】 ...
TPC-DS是TPC(事务处理性能委员会)组织发布的一套决策支持系统的性能测试基准,这个基准用于评估服务器的性能。TPC-DS包含一套零售行业的数据模型,采用星型、雪花型等多维数据模型。包含7张事实表,17张维度表,以及99个标准SQL测试案例,每个测试案例几乎都有很高的IO负载或者CPU计算负载,是专门用于评测数据仓库、大数据...
这一改进大幅减少了Shuffle过程中的数据传输量,并在实际测试与TPC-DS基准测试中展现出显著的性能提升与资源消耗降低,有效解决了原有问题并优化了系统整体性能。 线上2000多个作业的真实数据,上线后输入数据量小幅上涨的情况下,Shuffle数据量相比spark降近30%