Kaggleで勝つデータ分析の技術

書籍キャッチコピー
Kaggleで勝つための暗黙知が明かされる!
著者名
門脇 大輔, 阪田 隆司, 保坂 桂佑, 平松 雄司
出版社名
技術評論社
価格
3608
ページ数
424
出版年月日
2019/10/09

サンプルPythonコードリンク



本書のポイント

  • Kaggleのような分析コンペでは通常の機械学習の書籍にはあまり載っていない手法やテクニック、暗黙知が多数あり、それを学ぶことはコンペだけでなく実務上も意味がある。
  • テーブルデータを用いた分析コンペにおける、モデル作成のポイント、気をつけるべき点を網羅的に解説している。
  • 過去のコンペ上位入賞者のテクニックやテクニックごとの実装コード、考え方が示されており、データ種別ごとの試行の方向性が豊富に例示されている。

レビュー

機械学習やデータサイエンスを学んでいくと、その実践の場の一つとしてKaggleやSignateのような分析コンペに参加する人も多い。しかし、いざコンペに取り組んでみると、特徴量の作成やモデルの作成など、何から取り組むべきかわからなくなってしまう初学者は少なくない。

本書はテーブルデータに特化して、そういった駆け出しのデータ分析初学者や中級者に向けた体系的なデータ分析技術を解説している。以下では本書の特徴を解説する。

1つ目に、通常の技術書と異なるのは分析コンペという題材を通じて、データ分析において必要な一通りのプロセスを網羅的に解説している点である。またその中でも、リークやバリデーションのミスなど、実際に使えるモデルを作る際に陥ることがある落とし穴やポイントについても解説してあり、随所にある著者らのコラムもデータ分析の実務に役立つ点も特徴的だ。

2つ目に、各データ分析のプロセス(特徴量の作成、モデルの作成・評価・チューニング、アンサンブルなど)における様々なテクニックや手法を解説してくれている点も初学者にとっては心強い点だ。例えば特徴量の作成(3章)では欠損値の扱い、数値変数の変換、カテゴリ変数の変換など、実際の分析コンペで取り扱う様々なケースについてのテクニックやサンプルコードの解説に加え、具体的にどのコンペで使われていたかなど、学習者が実践に活かせるような丁寧な例示が多数ある。加えて、「コンペの初手で作るモデルはGBDT(勾配ブースティング)」など、具体的で実用的な助言は分析コンペにスムーズに入っていく際の指針になる。

3つ目に、過去のコンペ上位者の手法の解説や実装のコードが豊富に例示されている点がある。実装コードはまるまるコピーして別のコンペに使えるわけではないが、データの種別に解説される上位者のアプローチ方法のエッセンスはどれも趣向が凝らされており一読の価値がある。

本書は駆け出しのKagglerをはじめ、多くのデータ分析に取り組む初学者の挑戦に役立つ一冊である。

目次

第1章 分析コンペとは?
第2章 タスクと評価指標
第3章 特徴量の作成
第4章 モデルの作成
第5章 モデルの評価
第6章 モデルのチューニング
第7章 アンサンブル
付録

出版社の紹介リンク:https://gihyo.jp/book/2019/978-4-297-10843-4

この書籍に興味がある人へのおすすめ


レビューワー

Toru_Hasegawa

関連記事

  1. 基礎統計学Ⅰ 統計学入門

  2. 最短コースでわかる PyTorch &深層学習プログラミング

  3. 考える技術・書く技術

  4. ビッグデータ分析・活用のためのSQLレシピ

  5. 効果検証入門〜正しい比較のための因果推論/計量経済学の基礎

  6. 意思決定のための「分析の技術」

  7. データマネジメントが30分でわかる本

  8. Webサーバを作りながら学ぶ 基礎からのWebアプリケーション開発入門

  9. シン・ニホン AI×データ時代における日本の再生と人材育成