checkpoint与cache/persist对比 都是lazy操作,只有action算子触发后才会真正进行缓存或checkpoint操作(懒加载操作是Spark任务很重要的一个特性,不仅适用于Spark RDD还适用于Spark sql等组件) 2. cache只是缓存数据,但不改变lineage。通常存于内存,丢失数据可能性更大 3. 改变原有lineage,生成新的CheckpointRDD。通常存于...