以下のスキーマとデータフレームを出力します。 CSVファイルを読み込みます。 Python #Read a CSV filedf=spark.read.csv("/tmp/resources/zipcodes.csv") PySparkの変換処理 PySparkの変換処理はLazyであり、アクションが呼び出されるまでは実行されないことを意味します。 Python frompyspark.sql...
デバッグ用途で限られた行数だけ実行したいときは、collect の代わりに fetch が使えます。 また、データを読み込むところから遅延で評価したい場合、read_csvの代わりに scan_csv を使います。df = ( scan_csv("path/to/your/data.csv") # <= データの読み込みから遅延評価にまわす ....
read_csv('/content/high_male2.csv') high_male3 = high_male2[['握力', '上体起こし', '長座体前屈', '反復横跳び', 'シャトルラン', 'X50m走', '立ち幅跳び', 'ハンドボール投げ']] display(high_male3) 今回は、scikit-learnモジュールを使用した方法と使用しない方法の二種類...