Kaggleで勝つデータ分析の技術

書籍キャッチコピー: Kaggleで勝つための暗黙知が明かされる!

著者名: 門脇大輔, 阪田隆司, 保坂桂佑, 平松雄司

出版社名: 技術評論社

価格: 3608

ページ数: 424

出版年月日: 2019/10/09

サンプルPythonコードリンク

本の購入はこちら

本書のポイント

Kaggleのような分析コンペでは通常の機械学習の書籍にはあまり載っていない手法やテクニック、暗黙知が多数あり、それを学ぶことはコンペだけでなく実務上も意味がある。
テーブルデータを用いた分析コンペにおける、モデル作成のポイント、気をつけるべき点を網羅的に解説している。
過去のコンペ上位入賞者のテクニックやテクニックごとの実装コード、考え方が示されており、データ種別ごとの試行の方向性が豊富に例示されている。

レビュー

機械学習やデータサイエンスを学んでいくと、その実践の場の一つとしてKaggleやSignateのような分析コンペに参加する人も多い。しかし、いざコンペに取り組んでみると、特徴量の作成やモデルの作成など、何から取り組むべきかわからなくなってしまう初学者は少なくない。

本書はテーブルデータに特化して、そういった駆け出しのデータ分析初学者や中級者に向けた体系的なデータ分析技術を解説している。以下では本書の特徴を解説する。

1つ目に、通常の技術書と異なるのは分析コンペという題材を通じて、データ分析において必要な一通りのプロセスを網羅的に解説している点である。またその中でも、リークやバリデーションのミスなど、実際に使えるモデルを作る際に陥ることがある落とし穴やポイントについても解説してあり、随所にある著者らのコラムもデータ分析の実務に役立つ点も特徴的だ。

2つ目に、各データ分析のプロセス（特徴量の作成、モデルの作成・評価・チューニング、アンサンブルなど）における様々なテクニックや手法を解説してくれている点も初学者にとっては心強い点だ。例えば特徴量の作成（3章）では欠損値の扱い、数値変数の変換、カテゴリ変数の変換など、実際の分析コンペで取り扱う様々なケースについてのテクニックやサンプルコードの解説に加え、具体的にどのコンペで使われていたかなど、学習者が実践に活かせるような丁寧な例示が多数ある。加えて、「コンペの初手で作るモデルはGBDT（勾配ブースティング）」など、具体的で実用的な助言は分析コンペにスムーズに入っていく際の指針になる。

3つ目に、過去のコンペ上位者の手法の解説や実装のコードが豊富に例示されている点がある。実装コードはまるまるコピーして別のコンペに使えるわけではないが、データの種別に解説される上位者のアプローチ方法のエッセンスはどれも趣向が凝らされており一読の価値がある。

本書は駆け出しのKagglerをはじめ、多くのデータ分析に取り組む初学者の挑戦に役立つ一冊である。