...できますが、前処理(正規化)や後処理(クラスタリング結果とデータの紐づけ、クラスタごとにデータの分割)を毎回行うのが面倒だなー、と思ってます。 ですので、今回の記事は前処理・後処理を含めて2次元配列を対象としたDBSCANを関数化を行いました。 今回の記事では、関数化にフォー...
DataFrame は、Pandas のオブジェクトであり、列を持つ 2 次元のラベル付きデータ構造です。 データフレームは、データの格納に使用されるスプレッドシートや SQL テーブルと同じです。 スプレッドシートで作業したり、ウェブサイトからデータをスクレイピングしてスプレッドシートに保存し...
テーブルのキーは整数(int), 浮動小数(float), 文字列(str), およびこれら3つを使った1次元配列(seq), 2次元配列(2d_seq)となっています。 [index] ループインデックスの名称を指定します。1重目をi, 2重目をjで指定してください。省略可能で省略した場合はi, jが指定されます。Perl, ...
find_sheet('m', 'MBook2') # グラウンドトゥルースデータを行列シートからnumpy配列として取得 # 次に、1つの列のみを持つ行列として形状変更 # (-1, 1) は最初の次元のサイズにかかわらず1つの列を使用することを意味する mY = msY.to_np3d().reshape((-1, 1)) X = X[mY....
テンソルという言葉が怖ければ、「配列変数」と置き換えて読んでください。もし、データが1次元(音声や時系列データ)なら1サンプルあたり2次元になりますし、データが3次元(動画)なら1サンプルあたり4次元になります。今回は画像の例、つまり1サンプルあたり3次元で説明しますが、適宜置き...
NumPy は、デベロッパーが配列の作成と管理、論理形状の操作、線形代数演算の実行に使用している人気のあるライブラリです。NumPy は、C や C++ などの多くの言語との統合をサポートしています。 リクエスト Requests ライブラリは、ウェブ開発に必要な便利な機能を提供します。これを使用して、...
2つのデータフレームの列名にも差分がありません。 [in]set(X_train.columns)^set(X_valid.columns)[out]set() まとめ ダミー変数化は次元数が大きくなるので計算コストも意識しなくてはいけない場合があります。 Kaggleで扱うようなデータの規模であったり、外部の計算リソースを使う、とい...
プロット2次元に散布図をプロットするplotx=rnorm(10)y=rnorm(10)plot(x,y)(略)plotimport numpy as npimport matplotlib.pyplot as pltx = np.arange(10)y = np.random.randn(10)plt.plot(x,y)(略) プロット2次元に折れ線グラフをプロットする。色を赤に設定する。タイトルをtitleに設定す...
shape[0] # 配列の長さを返す。つまりここでは n_clustersで指定した3となる # シルエット係数を計算 silhouette_vals = silhouette_samples(X,y_km,metric='euclidean') # サンプルデータ, クラスター番号、ユークリッド距離でシルエット係数計算 y_ax_lower, y_ax_upper= 0,0 yticks = [...
Pythonのformatメソッドに渡されるため、波括弧等の文字を直に書きたい場合はエスケープする必要があります。 テーブルのキーは整数(int), 浮動小数(float), 文字列(str), およびこれら3つを使った1次元配列(seq), 2次元配列(2d_seq)となっています。