索引对象 我们发现,Pandas有个很有用也很特别的东西——就是index索引,它在数据分析中可以起到很大的作用:因为数据往往都是庞大和繁杂的,如果我们直接通过数据本身来进行查找和处理,那么任务就会显得极其繁重。而如果数据有一个对应的值,或者特定的特点,那么就可以快速找到它,这就是索引。 而每个索引对应的数据,就被称作索引对象。 P
使用sort_values函数排序,by后面跟排序的字段,默认为升序排列,ascending=False可将字段设为降序排列,这...
df['Date'] =pd.to_datetime(df.Date) df= df.sort_values(by='Date', ascending=True) df.index= df['Date'] ② 利用 datetime.timedelta 自动计算。假设我们需要以7天为单位来处理数据,我们设置好起始时间,然后利用datetime.timedelta 帮助我们计算终止时间(7天后的日期)。然后取出这范围内的数据即可。 sta...
df.loc[i, '折扣价'] = df.loc[i, '单价'] * 0.9 链式方法(一行代码搞定多步操作): python # 一气呵成的数据处理流! result = (sales_data .query('销量 > 100') .assign(利润率=lambda x: (x['单价']-x['成本'])/x['单价']) .sort_values('利润率', ascending=False) .head(5)) ...
df.drop('Type', axis='columns') 18.dataframe取差集:A-B 先把B表append到A,再用去重函数删除(选择不保留模式),得到的结果就是两表的差集A-B: dfC=dfA.append(dfB).drop_duplicates(keep=False) 19.多列排序 enddf=newdf.sort_values(['date','Buypower'],ascending=[True,False]) 20.数组差集 ...
DateFrame 获取列数据:df_obj[col_idx]或df_obj.col_idx; 增加列数据:df_obj[new_col_idx] = data; 删除列:del df_obj[col_idx]; 按值排序:sort_values(by = “label_name”) 常用方法: Count非NA值得数量 describe 针对Series或各DataFrame列计算汇总统计 min/max 计算最小值/最大值 argmin/argmax...
df = ( df .groupby(‘LCLid’, as_index=False) .apply(lambdagroup: group.reindex(full_idx, method=’nearest’)) .reset_index(level=0, drop=True) .sort_index() ) 在DataFrame中查找缺失的日期 # Note date_range is inclusive of the end dateref_date_range = pd.date_range(‘2012–2–...
将数据按照高端人才得分降序排序,展示前10位 df.sort_values(['高端人才得分'],ascending=False).head(10) 6-分列排名 查看各项得分最高的学校名称 df.iloc[:,3:].idxmax() 7-统计信息|均值 df['总分'].mean() 8-统计信息|中位数 df['总分'].median() 9-统计信息|众数 df['总分'].mode() 10-...
return dfg_stats.append(dfg_quantiles).sort_index() %timeit -n 10 summarize_numeric_3(df, ma...
df.sort_values("col3",inplace=True) 16.反转df的行 df.iloc[::-1, :] 17.按照多列对数据进行合并 pd.merge(df1,df2,on=['key1','key2']) 18.按照多列对数据进行合并(左连接) pd.merge(df1, df2, how='left', on=['key1', 'key2']) 19.查看数据中一共有多少列 df.shape[1] 20....