TPC-DS 1T 的性能对比中,火山引擎 LAS Spark 3.2 达到了社区 3.2 性能的 2.5x。 ## LAS Spark 团队自研优化 火山引擎 LAS Spark 相比社区有较大的性能提升,这些性能提升一部分来源于厂内已有的性能优化,例如AdaptiveShuffledHashJoin、AdaptiveFileSplit 等;还有一部分来源于对 TPC-DS 数据集的研究和挖掘。在对 ...
TPC-DS数据来源 进行TPCDS的数据来源需要我们自己生产,参考Spark Commiter和PMC的项目 spark-tpcds-datagen,具体的生产数据命令如下: nohup ./bin/dsdgen --output-location /tmp/spark-tpcds-data --overwrite --scale-factor 600 --partition-tables --num-partitions 100 &>dsdgen.log & 生产了大约200GB的数...
TPC-DS 1T 的性能对比中,火山引擎 LAS Spark 3.2 达到了社区 3.2 性能的 2.5x。 LAS Spark 团队自研优化 火山引擎 LAS Spark 相比社区有较大的性能提升,这些性能提升一部分来源于厂内已有的性能优化,例如AdaptiveShuffledHashJoin、AdaptiveFileSplit 等;还有一部分来源于对 TPC-DS 数据集的研究和挖掘。在对 TPC-...
这里2.3 倍性能提升的意思是,对于所有 TPCDS SQL 的执行耗时总和,Spark Vanilla(原生 Spark)总耗时是 Spark Native 的 2.3 倍。其在应用场景的意义是,对于一个 10 台机器的空闲集群,用 Spark Vanilla 运行一个任务需要 1 小时跑完,那么用 Spark Native 运行同样的任务只需不到半小时,或者说把集群规模减少到 ...
基于没有统计数据的 1TB TPC-DS 基准,Spark 3.0 可以使 q77 的速度提高8倍,使 q5 的速度提高2倍,而对另外26个查询的速度提高1.1倍以上。可以通过设置 SQL 配置 spark.sql.adaptive=true 来启用 AQE,这个参数默认值为 false 编辑 支持GPU等计算加速调度 :大规模机器学习中,计算迭代时间会比较长,AI...
首先,你需要准备一个符合TPC-DS规范的数据集,并使用Apache Hive或SparkSQL进行处理。然后,设计一系列基准测试,以评估查询执行时间、内存使用、CPU消耗等关键性能指标。在执行测试时,应确保测试环境与生产环境尽可能相似,包括硬件配置、软件版本、网络状况等,以保证测试结果的可靠性和可比性。通过对比不...
我们使用 10T 规模的 TPCDS 进行了性能测试,整体上有 2.3 倍的性能提升。 这里2.3 倍性能提升的意思是,对于所有 TPCDS SQL 的执行耗时总和,Spark Vanilla(原生 Spark)总耗时是 Spark Native 的 2.3 倍。其在应用场景的意义是,对于一个 10 台机器的空闲集群,用 Spark Vanilla 运行一个任务需要 1 小时跑完,...
首先,要注意的是一半TPC-DS性能查询没有性能的改变。这是因为使用或没使用CBO的查询计划没有不同 (例如,即使没有CBO, Spark’s Catalyst 优化器的柱状图也可以优化这些查询。剩下的查询性能都有提升,最有意思的其中16个查询,CBO对查询计划进行巨大改变并带来了超过30%的性能提升(如下)总的来说,我们观察的图标说...
在【脚本作业开发】中导入Spark TPCDS测试所用的SparkJar、SparkScala、Shell作业。 在generateData作业【主程序包路径】中上传文件https://poc-resources.bj.bcebos.com/spark-sql-perf-assembly-0.5.1-SNAPSHOT.jar 至bos bucket,使得【主程序包路径】为刚刚上传文件的bos路径,runTpcds作业中修改【主程序包路径】...
另一方面,Spark SQL 目前也是支持基于TPC-DS数据集进行性能压测或性能对比。Q2:怎么去评价SQL优化效果?A2:评价SQL 的优化效果,主要看优化的目的是什么。如果优化目的是提高稳定性,比如优化之前这个SQL 经常出现跑不出来、跑失败,优化后能跑出来就达到了预期的优化效果。还有一种是如果优化目的是希望能跑得更快...