下面的程序就是测试使用追加保存的方式,第一次写入一千万记录,第二次再追加一千万记录,测试性能。并使用不断的压缩算法下的测试性能。 importosimporttimeimportnumpyasnpimportpandasaspd# 生成随机数据defgenerate_random_data(num_records=1000000):data={'id':np.arange(num_records),'name':np.random.choice([...
encrypt=uid+str(''.join(random.sample(string.ascii_letters+string.digits,10))) if not features: temp.append(encrypt) else: feature_value = np.around(np.random.normal(0, 1, features), decimals=5, out=None).tolist() one_data = [encrypt] + feature_value temp.extend(one_data) capacity...
value_a=np.around(np.random.normal(0,1, (batch_size, col)), decimals=5, out=None) df_feature=pd.DataFrame(value_a,columns=[f"x{i}"foriinrange(col)]) ifwith_label: df_y=pd.DataFrame(np.random.choice(2, batch_size),dtype=np.int64,columns=["y"]) one_iter_data=pd.concat([...
value_a=np.around(np.random.normal(0,1, (batch_size, col)), decimals=5, out=None) df_feature=pd.DataFrame(value_a,columns=[f"x{i}"foriinrange(col)]) ifwith_label: df_y=pd.DataFrame(np.random.choice(2, batch_size),dtype=np.int64,columns=["y"]) one_iter_data=pd.concat([...
cats = generate_categories() values = np.array(np.random.choice(cats, n_rows, replace=True), dtype=object) nan_cnt = np.random.randint(1, int(max_nan*n_rows)) index = np.random.choice(n_rows, nan_cnt, replace=False) values[index] = np.nan ...
df = pd.DataFrame(np.random.randint(1,100, size = (number_or_rows, num_cols)), columns=cols) df.index = pd.date_range(start=start_date, periods=number_or_rows) returndf df=generate_sample_data_datetime 以上生成数据时间索引是以天为频率的。
np.random.seed(0) # Generate dataset X, y = make_friedman1(n_samples=100, n_features=5,random_state=0) # Convert numpy arrays to pandas dataframe X = pd.DataFrame(X, columns=list(string.ascii_uppercase[:X.shape[1]])) y = pd.DataFrame(y, columns=['Target']) ...
random.choice(n_rows, nan_cnt, replace=False) values[index] = np.nan dataset[name] = values types[name] = 'float32' for col in range(cat_count): name = f'c{col}' cats = generate_categories() values = np.array(np.random.choice(cats, n_rows, replace=True),...
这个解法的前提是原来的DataFramedf_titanic里头的索引是独一无二的,另外记得设定random_state以方便别人重现你的结果。 用SQL的方式合并两个DataFrames 很多时候你会想要将两个DataFrames 依照某个共通的栏位(键值)合并成单一DataFrame 以整合资讯,比方说给定以下两个DataFrames: ...
defgenerate_sample_data_datetime():np.random.seed(123)number_or_rows=365*2num_cols=5start_date='2022-01-01'cols=["C_0","C_1","C_2","C_3","C_4"]df=pd.DataFrame(np.random.randint(1,100,size=(number_or_rows,num_cols)),columns=cols)df.index=pd.date_range(start=start_date...