如果使用 pandas 做数据分析,那么DataFrame一定是被使用得最多的类型,它可以用来保存和处理异质的二维数据。 这里所谓的“异质”是指DataFrame中每个列的数据类型不需要相同,这也是它区别于 NumPy 二维数组的地方。 DataFrame提供了极为丰富的属性和方法,帮助我们实现对
In[1]: import pandas as pd import numpy as np pd.options.display.max_columns = 40 1. 选取多个DataFrame列 # 用列表选取多个列 In[2]: movie = pd.read_csv('data/m...
95, 93, 90,80],'English': [65, 85, 92, 88, 90],'Math': [30, 98, 96, 77, 90]} df1= DataFrame(data) df2 = DataFrame(data, index=['ZhangFei', 'GuanYu', 'ZhaoYun', 'HuangZhong', 'DianWei'], columns=['English', 'Math', 'Chinese']) print df1 print df2 ...
import pandas as pd data = {'state':['Ohio','Ohio','Ohio','Nevada'], 'year':[2000,2001,2002,2003], 'pop':[1.5,1.7,3.6,2.4]} pd1 = pd.DataFrame(data,columns=['year','state','pop'],index=['one','two','three','four']) pd1.loc['one',['year','state']] # 选择一行多...
read_sql('select * from table1', conn) 16. 编码和解码数据 Pandas提供了多种方法来进行编码和解码数据,例如可以使用get_dummies()方法对某一列进行独热编码,使用factorize()方法将一个类别列编码为数值列,例如: #对gender列进行独热编 df = pd.get_dummies(df, columns=['gender']) #将gender列编码为...
columns:list,从表中select的列 chunksize:int,如果指定,则返回一个迭代器,chunksize表示每个chunk中包含的行数 2,to_sql() 把数据写入到数据库中的表中: DataFrame.to_sql(name, con, schema=None, if_exists='fail', index=True, index_label=None, dtype=None, chunksize=None, method=None) ...
df.sort_values(['column_name1', 'column_name2'], ascending=[True, False]) # 按照索引排序 df.sort_index()数据分组和聚合函数说明 df.groupby(column_name) 按照指定列进行分组; df.aggregate(function_name) 对分组后的数据进行聚合操作; df.pivot_table(values, index, columns, aggfunc) 生成透视表...
read_excel可以通过将列列表传递给index_col和将行列表传递给header来读取MultiIndex索引。如果index或columns具有序列化级别名称,也可以通过指定构成级别的行/列来读取这些级别。 例如,要读取没有名称的MultiIndex索引: In [424]: df = pd.DataFrame(...: {"a": [1, 2, 3, 4], "b": [5, 6, 7, 8]...
A) Pandas Dataframe B) Pandas Dataframe + 使用pandas chunksize, engine, iterator and memory_map 参数节省内存 C) Dask Dataframe D) Datatable Library E) Modin-Dask/Ray Library F) 其他并行处理库 : swifter, pandaral-lel, dispy, multiprocessing, joblib and many more. ...
2. 3. 4. 5. 以上创建方式都仅仅做一个了解即可,因为工作中dataframe的数据一般都是来自于读取外部文件数据,而不是自己手动去创建。 常见属性 1.index 行索引 2.columns 列索引 3.T 转置 4.values 值索引 5.describe 快速统计 DataFrame数据类型补充 ...