PySpark 3.3.0在使用Pandas API执行concat时没有使用缓存的DataFrame这并不是最大的速度差异,所以这可能只是噪音,实际上该高速缓存没有被使用(但我确实运行了几次这个基准测试,使用缓存的合并操作始终更快)。更了解pyspark的人可能能够更好地解释你所观察到的,但希望这个答案能有所帮助。下面是使用缓存和不使用缓存的合并之间的执行时间图:
PySpark 3.3.0在使用Pandas API执行concat时没有使用缓存的DataFrame这并不是最大的速度差异,所以这可...
concatDataframe中的所有列没有必要使用自定义项。concat\u ws应该做到这一点: