array([0,1,0,0,0,1,0,0],dtype=int8) 你可将DataFrame的列通过分配转换结果,转换为分类: # 你可将DataFrame的列通过分配转换结果,转换为分类: df['fruit']=df['fruit'].astype('category') df.fruit 0apple 1orange 2apple 3apple 4apple 5orange 6apple 7apple Name:fruit,dtype:category Categor...
dtype: object 创建控制 默认情况下传入dtype='category' 创建出来的category使用的是默认值: Categories是从数据中推断出来的。 Categories是没有大小顺序的。 可以显示创建CategoricalDtype来修改上面的两个默认值: In [26]: from pandas.api.types import CategoricalDtype In [27]: s = pd.Series(["a", "b...
dtype: object ''' 将列设置为category类型。 df['grade'] = df['grade'].astype('category')''' grade category id int64 dtype: object Name: grade, dtype: category Categories (3, object): [a, b, e] ''' 2.改变类别 cat.categories 此时标签集合为3个取值,可通过改变类别标签。 df['grade'...
weather_data['天气类型'] = weather_data['天气类型'].astype('category') # 打印分类后的天气类型数据 print(weather_data['天气类型']) ``` 运行上述代码,我们可以得到如下输出: ``` 0 晴天 1 多云 2 阴天 3 雨天 Name: 天气类型, dtype: category Categories (4, object): ['多云', '晴天', ...
3. 自定义数据类型(Category)按照指定顺序排序,并通过透视表展示数据 #%%#自定义type,以及自定义排序的顺序my_type =pd.CategoricalDtype( categories=["头等舱","商务舱","经济舱"], ordered=True ) df["仓位"] = df["仓位"].astype(my_type)#将指定列转成自定义的typedf.dtypes#%%#通过透视表统计数...
dtype=np.float32 指定输出数据类型为 float32 # - handle_unknown='ignore' 遇到未知类别时,进行忽略处理 encoder = OneHotEncoder(categories='auto', drop=None, dtype=np.float32, handle_unknown='ignore') # 训练编码器并转换数据 encoded_data = encoder.fit_transform(data) # 打印转换后的数据 print...
("有序分类数据:\n", cat_data) # 创建一个DataFrame,使用指定的CategoricalDtype df = pd.DataFrame({ 'Quality': pd.Categorical(data, categories=['low', 'medium', 'high'], ordered=True, dtype="category") }) print("\nDataFrame:\n", df) # 原始数据 data = ['cold', 'warm', 'hot'...
# 基于分组的,组内加权平均 # np.average()会先将组内的weights权重分配为加起来和为1,再计算 grouped = df.groupby('category') get_wavg = lambda g: np.average(g['data'], weights=g['weights']) grouped.apply(get_wavg) ''' category a 0.746913 b -0.171065 dtype: float64 ''' 1. 2. ...
# 对季节、河流两列进行排序,首先定义category类型顺序 river_order=CategoricalDtype(# 河流的顺序定义为南淝河、派河、杭埠河['Nanfei River','Pai River','Hangbu River'],ordered=True)period_order=CategoricalDtype(# 时期的顺序定义为枯水期、平水期、丰水期['Dry Season','Level Season','Wet Season'...