今天特意总结出,用pandas进行数据清洗的以下几种常用方法,主要包括处理缺失值、重复数据、异常值、数据类型转换、格式统一等方面,供小伙伴们参考。 二、数据清洗教程 2.1 数值型数据 假设现在有一份待清洗数据《胡润百富榜_待清洗.csv》, 数据大概长这样: 胡润百富榜_待清洗.csv 针对数据内的异常情况,做以下清洗处理,
删除表中的某一行或者某一列更明智的方法是使用drop,它不改变原有的df中的数据,而是返回另一个dataframe来存放删除后的数据。本文出处主要来源于必备工具书《利用python进行数据分析》。1.清理无效数据df[df.isn…
import pandas as pd #读取数据 df = pd.read_excel(r'C:\Users\XXXXXX\Desktop\pandas练习文档.xlsx',sheet_name=0) #删除全为空的列。 df = df.dropna(axis=0,subset=['地区','年份'],how='any') print(df) 3、df.drop() 3.1 df.drop()参数详解 df.drop( labels=None, #要删除的行或列...
print("原始 DataFrame:") print(df)# 尝试删除不存在的列 'D',但不会抛出错误df3 = df.drop(columns=['D'], errors='ignore') print("\n尝试删除不存在的列 'D',但不会报错:") print(df3) 5)删除MultiIndexDataFrame 的列和/或行示例 importpandasaspdimportnumpyasnp# 创建 MultiIndex DataFramemidx...
drop(labels, axis=0, level=None, inplace=False, errors='raise') 1. –axis为0时表示删除行,axis为1时表示删除列 3、常用参数如下: 先看一下数据表 删除行: import pandas as pd path =r'E:\Desktop\科学计算\Pandas课件\pandas教程\课件015-016\删除.xlsx' data = pd.read_excel(path,index_col...
pandas数据清洗:drop函数、dropna函数、drop_duplicates函数详解 1 drop函数简介 1.1 构建学习数据 1.2 删除行两种方法 1.3 删除列两种方法 2 dropna函数简介 2.1 构建学习数据 2.2 删除空值3种方法 3 drop_duplicates函数简介 3.1 构建学习数据 3.2 去重方法 ...
df.drop(['列名'], axis =1) (2)drop函数的inplace参数 采用drop方法,有下面三种等价的表达式: 1.DF= df.drop('列名', axis=1);2.DF.drop('列名',axis=1, inplace=True)3.DF.drop([DF.columns[[0,1,3]]], axis=1, inplace=True)# Note: zero indexed ...
python数据分析(六) python pandas--series和dataframe的操作方法索引,reindex,drop 本节我们主要介绍pandas对象series和dataframe当中的一些重要的方法 reindex方法 reindex方法会根据index对series和dataframe进行重排序,对于找不到的index会用NAN值进行填充。 In [151]: obj...
Python program to drop row if two columns are NaN # Importing pandas packageimportpandasaspd# Importing numpy packageimportnumpyasnp# Creating two dictionaryd={'a':[0.9,0.8,np.nan,1.1,0],'b':[0.3,0.5,np.nan,1,1.2],'c':[0,0,1.1,1.9,0.1],'d':[9,8,0,0,0] }# Creating a Dat...
数据分析的第一步,就是数据清洗。很多时候,拿到的原始数据乱七八糟,有缺失值、异常值、重复值,这时候Python的pandas库就派上用场了。 举个栗子,假设我们有一份用户数据,里面有一些重复的内容,我们可以这样处理: # 删除重复数据df.drop_duplicates(inplace=True)# 删除异常值(比如年龄大于100的)df = df[df["...