这是Python数据分析实战基础的第三篇内容,主要对前两篇进行补充,把实际数据清洗场景下常用但零散的方法,按增、删、查、分四板斧的逻辑进行归类,以减少记忆成本,提升学习和使用效率。 首先,导入案例数据集。因为案例数据存放在同一个Excel表的不同Sheet下,我们需要指定sheetname分别读取: 下面开始清洗的正餐。 01 增—
一、九数云数据清洗 百万数据量的拆列处理、复杂字符串的拆列处理,除了python数据清洗,我们可以也可以借助数据分析工具-九数云实现。九数云支持多种数据源,百万行数据可以直接导入进行数据清洗和预处理:本地数据文件:支持直接上传excel、CSV等本地数据支持通过agent客户端,直接连接本地数据库如:MySQL、PostogreSQL、...
1. 读取Excel数据首先,我们需要使用pandas的read_excel函数来读取Excel文件。这个函数默认会读取第一个工作表,但你也可以指定要读取的工作表名称或索引。 import pandas as pd # 读取Excel文件 df = pd.read_excel('file.xlsx') 2. 数据清洗数据清洗是数据处理过程中非常重要的一步,主要涉及到处理缺失值、异常值...
1、缺失值是什么?当我们从数据文件(CSV、Excel等)或者其他数据源加载到 DataFrame 中时,往往会遇到某些单元格的数据是缺失的。当我们打印出 DataFrame 时,缺失的部分会显示为 NaN, 或者 None,或者 NaT(取决于单元格的数据类型),这样的值我们就称之为缺失值。比如下面的数据:从图中我们可以看出,几个同...
Openpyxl:Openpyxl是一个用于读写Excel文件的库。它可以用来处理Excel文件中的数据清洗任务。 使用这些Python库,可以进行数据清洗的各个方面的操作。下面是一个简单例子,展示如何使用Pandas进行数据清洗: 代码语言:python 代码运行次数:0 运行 AI代码解释 importpandasaspd# 读取数据data=pd.read_csv('data.csv')# 处...
第二步:读取excel数据 pd.read_excel 第三步:打印前几行 df.head() 第四步:查看多少行 多少列 df.shape 第五步:查看列的数据类型 df.dtype / df.loc[ : ,'列名'].dtype 第六步:每一列的统计量 df. describe() 三. 数据清洗 1)选择子集 df.loc[行:行,列:列] 例如: df.loc[0:4,'购...
数据分组 cut() 数据分列 split() 1、简易使用 import numpy as np import pandas as pd loandata=pd.DataFrame(pd.read_excel('loandata.xlsx')) # 将Excel中的数据加载到pd中 """ 数据空值处理 """ loandata.duplicated() # 查找并显示数据表中的重复值 ...
inplace:可选参数,表示是否对原始数据进行就地修改。默认值为False,表示不修改原始数据,而是返回一个新的数据框 import pandas as pd df = pd.DataFrame(pd.read_excel('test.xlsx', engine='openpyxl')) print(df.values) df.dropna(how='any', inplace=True) print(df.values) df.to_excel('test.xlsx...
读取Excel 表格数据 数据清洗与分析(统计、分组、排序) 自动生成图表(柱状图/折线图) 输出结果表格 + 图表嵌入 二、准备工作 安装依赖 pip install openpyxl pandas matplotlib 1. 示例数据文件sales_data.xlsx 字段包括: 三、读取 Excel 数据 使用pandas读取表格内容: ...