# 保留指定的列,比如保留Name和Salary列columns_to_keep=['Name','Salary']df_kept=df[columns_to_keep] 1. 2. 3. 上述代码中,我们创建了一个名为"columns_to_keep"的列表,其中包含了我们要保留的列的名称。然后,我们使用切片操作,通过将这个列表作为索引,从原始DataFrame中提取出需要的列
<class 'pandas.core.frame.DataFrame'> RangeIndex: 1945 entries, 0 to 1944 Data columns (total 5 columns): # Column Non-Null Count Dtype --- --- --- --- 0 销售日期 1945 non-null datetime64[ns] 1 销售区域 1945 non-null object 2 销售渠道 1945 non-null object 3 品牌 1945...
一、DataFrame去重 #去除某几列重复的行数据。'A','B'相同,则删除重复行,保留第一个。keep参数可以为first、last和False(不保留) df.drop_duplicates(subset=['A','B'],keep='first',inplace=True) #去除完全重复的行数据。保留第一个 df.drop_duplicates(keep='first',inplace=True) 1. 2. 3. 4....
在 Pandas中pivot()方法提供了这样的功能,它会根据给定的行或列索引重新组织一个 DataFrame对象。 3.2.1 pivot()方法 index:用于创建新 DataFrame对象的行索引。 columns:用于创建新 DataFrame对象的列索引 values:用于填充新 DataFrame对象中的值。 4. 数据转换 4.1 重命名轴索引 Pandas中提供了一个rename()...
DataFrame.shape 返回数据框的形状 DataFrame.memory_usage([index, deep]) Memory usage of DataFrame columns. 类型转换 方法 描述 DataFrame.astype(dtype[, copy, errors]) 转换数据类型 DataFrame.copy([deep]) 复制数据框 DataFrame.isnull() 以布尔的方式返回空值 ...
DataFrame.drop 另一种选择是使用drop通过pd.Index.difference选择列: # df.drop(cols_to_drop, axis=1) df.drop(df.columns.difference(cols_to_keep), axis=1) 3 5 A x x B x x C x x 表现 这些方法在性能方面大致相同;reindex对于较小的 N 更快,而drop对于较大的 N 更快。性能是相对的,因为...
python--Pandas中DataFrame基本函数(略全) pandas里的dataframe数据结构常用函数。 构造函数 方法描述 DataFrame([data, index, columns, dtype, copy])构造数据框 属性和数据 方法描述 Axesindex: row labels;columns: column labels DataFrame.as_matrix([columns])转换为矩阵 ...
上述数据源,先将一连串数据赋值给字典“测试数据_字典”,然后通过pandas.DataFrame方法将字典数据转成pandas对象“测试_p”。记住“测试_p”后续所有操作都基于此对象。3 行列操作 回忆一下,平时使用excel处理数据时,经常需要修改表头,删减某些列等这些常规操作,使用pandas同样可以实现。看看主要用法:Ø 获取...
在python中,dataframe自身带了nlargest和nsmallest用来求解n个最大值/n个最小值,具体案例如下: 案例1 求最大前3个数 data=pd.DataFrame(np.array([[1,2],[3,4],[5,6],[7,8],[6,8],[17,98]]),columns=['x','y'],dtype=float)Three=data.nlargest(3,'y',keep='all')print(Three) ...
df = pd.DataFrame([data1, data2, data3, data4], columns=['col1', 'col2']) print(df) 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 查看重复数据: #df.duplicated()方法中有两个参数subset和keep。 #subset:要判断是否重复的列。可以指定某个列或多个列。默认使用全部列。