Pocket

読了時間:15分

皆さん、こんにちは!

今回の初学者チュートリアルは、データクレンジングで必ず使うことになるpythonのモジュール「Pandas」に焦点を当てます。とはいっても、Pandasは非常に使いやすくポピュラーなモジュールですので、既にたくさんのまとめサイトがあります。この記事ではそれらをどんどん紹介していきたいと思います。

 

一般的なPandasの使い方

一般的な使い方については、こちらにまとめられておりますので、参照して下さい。

以下、特によく使う方法をピックアップします。

Pickup1:データの結合

データクレンジングでは必ずと言っていいほど、データの結合を行います。とくに、以下の3つの方法をよく使います。

  1. pd.concat(コンカット、インデックスやカラム名での連結に使う)
  2. pd.merge(マージ、特定のカラムのデータをキーとして連結する)
  3. pd.append(アペンド、おもに縦方向の連結に用いる)

これについては既にこちらこちらによくまとまっていますので、参照いただければと思います。

Pickup2:データ抽出

データクレンジングの場面では、

「このデータのこの部分だけ取り出したい…!!」

というケースがあると思います。これについてはこちらこちらに載っております。とくに、Pandasではインデックスでいかにデータを高速処理するかが勝負どころですので、ぜひ参照して下さい。

Pickup3:読み込み開始行の指定

皆さんは、下画像のような場面に出くわしていませんか?CSVファイルの冒頭部にデータ説明の記述があり、処理において途中の行から読み込みたいことはありませんか?

このようなときは、read_csv時に引数「skiprows」を指定してください。詳細はこちらにありますので参考にして下さい。

書籍の紹介

今回紹介したような様々なデータ処理方法は、

「前処理大全」(技術評論社、2018年)

に載ってあります(ラボにも用意してありますので、購入の必要はありません)。SQL/R/Pythonをふくめた手法を学ぶことができますので参考にしてください。

 

いかがでしたか?データ処理は早めに覚えて、ルーティンワークにしてしまいましょう!!

 

執筆者:宮本