列Aの最大値 列Aの最小値 「列Aと列Bの差」の平均値を計算し、いい感じの列名を付けたいとしましょう。▼Pandasの場合df["A_B_diff"] = df["A"] - df["B"] df_agg = df.groupby("G").agg({"A": ["min", "max"], "A_B_diff": "mean"}) df_agg.columns = ["A_min", "A...
groupby()を使用して、クロスセクション回帰モデルを月ごとに計算します。 defols_coefficient(x,formula):returnsm.ols(formula,data=x).fit().params gamma_df=data_df.groupby("caldt").apply(ols_coefficient,"ret ~ 1 + beta + r12to2 + r36to13")gamma_df.head() ...
df.groupby(['レース番号'])['走破タイム'].apply(lambda x: (x < 2000).sum() / x.count()).to_frame() レース番号走破タイム(割合) 10.60 20.25 こちらは、レースごとに走破タイムが2000(競馬では2分00.0秒を表します)を切る馬の割合を算出しています。apply関数を使用して、groupbyした...
pivot_tableの基本 氏名ごとに商品分類ごとの売上金額の合計を算出 特定の列で並び替え 氏名ごとに商品分類ごとの売上金額の平均を算出 氏名ごとに商品分類の単価、数量、売上金額の平均を算出 欠損値の処理 集計行列の追加 複数の集計 自作関数での集計 ...
groupby(['device'],as_index=False)['target'].mean()叩いて出したカテゴリ平均値と一致しているので、やはり単純にカテゴリ毎に平均とってるだけだな。。。 微妙だ。。 素直にOrdinalEncoder変換しよ。 まとめ encodersを使うと面倒なカテゴリ特徴量をストレスなく変換できる。 グレー...
処理速度が改善される。特にGroupByは、Pandasの内部処理として整数型の配列で扱うため、整数型ではない列の処理は効果が大きいみたい。 catアクセサを使って、ラベルエンコーディング(0から始まる整数値に変換)したり、それを元の値に戻したりすることが簡単に出来る。(参考 Pandas公式ドキュ...