[エンジニアのための]データ分析基盤入門 データ活用を促進する! プラットフォーム&データ品質の考え方

書籍キャッチコピー
ユーザーが集まる! データ分析が活性化する! データエンジニアリングの基本から学ぼう
著者名
斎藤 友樹
出版社名
技術評論社
価格
2992
ページ数
272
出版年月日
2022/02/24


本書のポイント

  • データ分析基盤の開発・運用について、一通りの知識を学習できる。
  • 業務で既にデータ分析基盤を利用している人は、知識の棚卸しができ、課題を見つけるきっかけとなる。
  • データを継続的に活用するために、メタデータの管理方法やテーブル設計方針、データ品質管理などを幅広く理解できる。

レビュー

現在、データ分析業務を取り巻く環境が大きく変化している。機械学習/ディープラーニング、マーケティング、需給予測、不正検知を筆頭にデータ利用が多角化し、それにともないデータ分析基盤に求められる役割も多様化してきた。

本書では、時代の変化に対応できるデータエンジニアリングの基本を掴めるよう構成されている。大きく分けて、「データ活用/データ分析で必要なベース知識と技術」、「データ利用者を増やし、価値創出を促す方法」の二本立てとなっている。

「データ活用/データ分析で必要なベース知識と技術」(第1章〜第4章)では、データエンジニアリングの基礎知識として、4つのレイヤー「コレクティングレイヤー/プロセシングレイヤー/ストレージレイヤー/アクセスレイヤー」、データ分析基盤を構築/管理する上で重要な「SSoT」「セルフサービス」について学習できる。本書に記載されたデータ分析基盤に求められる役割や考え方、方法論を自身の業務に置き換えて学習することで、実務で抱えている課題について、具体的な解決策が見つかる点がポイントだ。

「データ利用者を増やし、価値創出を促す方法」(第5章〜第7章)では、データ活用における課題をメタデータによって解決する方法、データを整備するためのDIKWモデル、データマートやデータウェアハウスの設計方針、データの品質管理などを解説。例えば、メタデータの提供が必要な背景や、データのリネージュ/プロバナンスの重要性など、単純な実装方法に留まらずデータ分析基盤の利用ユーザが、これまで以上にデータ活用できるようになる方法を紹介している。

全体として、オライリー本ほどの具体性はないが、入門書としては十分具体的な内容となっている。ただし、この一冊でデータ分析基盤をゼロから構築するほどの具体性がないため、本書では幅広く概念について理解し、更に踏み込んだ内容を学ぶ際には他の専門書やツールのドキュメントなどで知識を深めることを推奨する。

上記のとおり、データ分析基盤の開発に従事するエンジニアや、データ分析基盤を活用するアナリストにとって、価値のある一冊である。

目次

第1章 [入門]データ分析基盤 データ分析基盤を取り巻く「人」「技術」「環境」
1.1 データ分析基盤の変遷 多様化を受け入れるために進化する
1.2 処理基盤/クラスターの変遷 よりマネージレスにしてコストを減らし、より本来の業務へ集中する時代
1.3 データの変遷 ExcelからWeb、IoT、そして何でもあり(!?)へ
1.4 データ分析基盤に関わる人の変遷 データにまつわる多様な人材
1.5 データへの価値観の変化 データ品質の重要度が高まってきた
1.6 データにおける開発の変遷 複雑化するプロダクトと人の関係
1.7 本章のまとめ

第2章 データエンジニアリングの基礎知識 4つのレイヤー
2.1 データエンジニアリングの基本 ポイントと本書内の関連章について
2.2 データの世界のレイヤー データ分析基盤の世界を俯瞰する
2.3 コレクティングレイヤー データを集める
2.4 プロセシングレイヤー データを変換する
2.5 ストレージレイヤー データやメタデータを貯蔵する
2.6 アクセスレイヤー データ分析基盤と外の世界との連携
2.7 本章のまとめ

第3章 データ分析基盤の管理&構築 セルフサービス、SSoT、タグ、ゾーン、メタデータ管理
3.1 セルフサービスの登場 全員参加時代への移行期
3.2 SSoT データは1ヵ所に集めよう
3.3 データ管理デザインパターン ゾーンとタグ
3.4 データの管理とバックアップ データ整理と、もしものときの準備
3.5 データのアクセス制御 ほど良いアクセス権限の適用
3.6 One Size Fits All問題 デカップリングで数々の問題を解決しよう
3.7 データのライフサイクルマネジメント 不要なデータを残さないために
3.8 メタデータとデータ品質による管理 データを知る基本ツール
3.9 ハイブリット構成 ハイブリッドが抱える問題
3.10 本章のまとめ

第4章 データ分析基盤の技術スタック データソースからアクセスレイヤー、クラスター、ワークフローエンジンまで
4.1 データ分析基盤の技術スタック 全体像を俯瞰する
4.2 データ分析基盤のためのクラスター選択 無理な利用にも耐えられる必要がある
4.3 コレクティングレイヤーの技術スタック セルフサービス時代のデータの取り込み
4.4 プロセシングレイヤーの技術スタック データ変換を行うレイヤー
4.5 ワークフローエンジン データ取り込みと変換を統括する
4.6 ストレージレイヤーの技術スタック データの保存方法
4.7 アクセスレイヤー構築の技術スタック セルフサービス時代のユーザーへのデータ提供
4.8 アクセス制御 アクセスレイヤーに対するアクセス制御
4.9 本章のまとめ

第5章 メタデータ管理 データを管理する「データ」の重要性
5.1 データより深いメタデータの世界 データは氷山の一角
5.2 メタデータとデータ 3つのメタデータを整理/整備しよう
5.3 データプロファイリング データの状態を見る
5.4 データカタログ 手元にないメタデータはカタログ化しよう
5.5 データアーキテクチャ リネージュ、プロバナンス。メタデータの総合力
5.6 本章のまとめ

第6章 データマート&データウェアハウスとデータ整備 DIKWモデル、データ設計、スキーマ設計、最小限のルール
6.1 データを整備するためのモデル DIKWモデル
6.2 データマートの役割 「Data」を整備して知恵の創出をサポートする
6.3 スキーマ設計 データに関するルールを設計する
6.4 データマートの生成サポート コミュニケーションの省略&活用
6.5 データマートのプロパゲーション メタデータやルールの作成
6.6 ストリーミングとデータマート 瞬時にKnowledge化する
6.7 本章のまとめ

第7章 データ品質管理 質の高いデータを提供する
7.1 データ品質管理の基礎 データ蓄積から次の段階へ進む
7.2 データの劣化 データは放置するだけで劣化する
7.3 データ品質テスト 劣化に気づくための品質チェック
7.4 メタデータ品質 生産性を向上させるために
7.5 データ品質を向上させる 品質テストの結果を活かす
7.6 本章のまとめ

第8章 データ分析基盤から始まるデータドリブン データ分析基盤の可視化&測定
8.1 データ分析基盤とデータドリブン エンジニアもデータドリブンに行こう
8.2 データドリブンを実現するための準備 データ分析基盤のPDCAと数値
8.3 KPIをどのように開発に活かすのか データ分析基盤の「コスト削減KGI」の例
8.4 データ分析基盤観点のKGI/(CSF)/KPI 改善の着眼点
8.5 本章のまとめ

Appendix [ビッグデータでも役立つ]RDB基礎講座
A.1 データベースとは何か? 検索、更新、制約機能を持った入れ物
A.2 RDBの基本 データベースの基本を振り返る
A.3 RDBにおけるアーキテクチャ RDBの設計
A.4 Appendixのまとめ

この書籍に興味がある人へのおすすめ


レビューワー

もうり たくと

関連記事

  1. 最短コースでわかる PyTorch &深層学習プログラミング

  2. DXの思考法 日本経済復活への最強戦略

  3. ビッグデータ分析・活用のためのSQLレシピ

  4. ゼロから作るDeep Learning

  5. マンガでわかる統計学 因子分析編

  6. シン・ニホン AI×データ時代における日本の再生と人材育成

  7. ChatGPTの頭の中

  8. Pythonではじめる数理最適化 ケーススタディでモデリングのスキルを身につけよう

  9. 本質を捉えたデータ分析のための分析モデル入門