[エンジニアのための]データ分析基盤入門データ活用を促進する! プラットフォーム&データ品質の考え方

書籍キャッチコピー: ユーザーが集まる! データ分析が活性化する! データエンジニアリングの基本から学ぼう

著者名: 斎藤友樹

出版社名: 技術評論社

価格: 2992

ページ数: 272

出版年月日: 2022/02/24

本の購入はこちら

本書のポイント

データ分析基盤の開発・運用について、一通りの知識を学習できる。
業務で既にデータ分析基盤を利用している人は、知識の棚卸しができ、課題を見つけるきっかけとなる。
データを継続的に活用するために、メタデータの管理方法やテーブル設計方針、データ品質管理などを幅広く理解できる。

レビュー

現在、データ分析業務を取り巻く環境が大きく変化している。機械学習/ディープラーニング、マーケティング、需給予測、不正検知を筆頭にデータ利用が多角化し、それにともないデータ分析基盤に求められる役割も多様化してきた。

本書では、時代の変化に対応できるデータエンジニアリングの基本を掴めるよう構成されている。大きく分けて、「データ活用/データ分析で必要なベース知識と技術」、「データ利用者を増やし、価値創出を促す方法」の二本立てとなっている。

「データ活用/データ分析で必要なベース知識と技術」（第1章〜第4章）では、データエンジニアリングの基礎知識として、4つのレイヤー「コレクティングレイヤー/プロセシングレイヤー/ストレージレイヤー/アクセスレイヤー」、データ分析基盤を構築/管理する上で重要な「SSoT」「セルフサービス」について学習できる。本書に記載されたデータ分析基盤に求められる役割や考え方、方法論を自身の業務に置き換えて学習することで、実務で抱えている課題について、具体的な解決策が見つかる点がポイントだ。

「データ利用者を増やし、価値創出を促す方法」（第5章〜第7章）では、データ活用における課題をメタデータによって解決する方法、データを整備するためのDIKWモデル、データマートやデータウェアハウスの設計方針、データの品質管理などを解説。例えば、メタデータの提供が必要な背景や、データのリネージュ/プロバナンスの重要性など、単純な実装方法に留まらずデータ分析基盤の利用ユーザが、これまで以上にデータ活用できるようになる方法を紹介している。

全体として、オライリー本ほどの具体性はないが、入門書としては十分具体的な内容となっている。ただし、この一冊でデータ分析基盤をゼロから構築するほどの具体性がないため、本書では幅広く概念について理解し、更に踏み込んだ内容を学ぶ際には他の専門書やツールのドキュメントなどで知識を深めることを推奨する。

上記のとおり、データ分析基盤の開発に従事するエンジニアや、データ分析基盤を活用するアナリストにとって、価値のある一冊である。

第1章 [入門]データ分析基盤データ分析基盤を取り巻く「人」「技術」「環境」
1.1 データ分析基盤の変遷多様化を受け入れるために進化する
1.2 処理基盤/クラスターの変遷よりマネージレスにしてコストを減らし、より本来の業務へ集中する時代
1.3 データの変遷 ExcelからWeb、IoT、そして何でもあり(!?)へ
1.4 データ分析基盤に関わる人の変遷データにまつわる多様な人材
1.5 データへの価値観の変化データ品質の重要度が高まってきた
1.6 データにおける開発の変遷複雑化するプロダクトと人の関係
1.7 本章のまとめ

第2章データエンジニアリングの基礎知識 4つのレイヤー
2.1 データエンジニアリングの基本ポイントと本書内の関連章について
2.2 データの世界のレイヤーデータ分析基盤の世界を俯瞰する
2.3 コレクティングレイヤーデータを集める
2.4 プロセシングレイヤーデータを変換する
2.5 ストレージレイヤーデータやメタデータを貯蔵する
2.6 アクセスレイヤーデータ分析基盤と外の世界との連携
2.7 本章のまとめ

第3章データ分析基盤の管理&構築セルフサービス、SSoT、タグ、ゾーン、メタデータ管理
3.1 セルフサービスの登場全員参加時代への移行期
3.2 SSoT データは1ヵ所に集めよう
3.3 データ管理デザインパターンゾーンとタグ
3.4 データの管理とバックアップデータ整理と、もしものときの準備
3.5 データのアクセス制御ほど良いアクセス権限の適用
3.6 One Size Fits All問題デカップリングで数々の問題を解決しよう
3.7 データのライフサイクルマネジメント不要なデータを残さないために
3.8 メタデータとデータ品質による管理データを知る基本ツール
3.9 ハイブリット構成ハイブリッドが抱える問題
3.10 本章のまとめ

第4章データ分析基盤の技術スタックデータソースからアクセスレイヤー、クラスター、ワークフローエンジンまで
4.1 データ分析基盤の技術スタック全体像を俯瞰する
4.2 データ分析基盤のためのクラスター選択無理な利用にも耐えられる必要がある
4.3 コレクティングレイヤーの技術スタックセルフサービス時代のデータの取り込み
4.4 プロセシングレイヤーの技術スタックデータ変換を行うレイヤー
4.5 ワークフローエンジンデータ取り込みと変換を統括する
4.6 ストレージレイヤーの技術スタックデータの保存方法
4.7 アクセスレイヤー構築の技術スタックセルフサービス時代のユーザーへのデータ提供
4.8 アクセス制御アクセスレイヤーに対するアクセス制御
4.9 本章のまとめ

第5章メタデータ管理データを管理する「データ」の重要性
5.1 データより深いメタデータの世界データは氷山の一角
5.2 メタデータとデータ 3つのメタデータを整理/整備しよう
5.3 データプロファイリングデータの状態を見る
5.4 データカタログ手元にないメタデータはカタログ化しよう
5.5 データアーキテクチャリネージュ、プロバナンス。メタデータの総合力
5.6 本章のまとめ

第6章データマート&データウェアハウスとデータ整備 DIKWモデル、データ設計、スキーマ設計、最小限のルール
6.1 データを整備するためのモデル DIKWモデル
6.2 データマートの役割「Data」を整備して知恵の創出をサポートする
6.3 スキーマ設計データに関するルールを設計する
6.4 データマートの生成サポートコミュニケーションの省略&活用
6.5 データマートのプロパゲーションメタデータやルールの作成
6.6 ストリーミングとデータマート瞬時にKnowledge化する
6.7 本章のまとめ

第7章データ品質管理質の高いデータを提供する
7.1 データ品質管理の基礎データ蓄積から次の段階へ進む
7.2 データの劣化データは放置するだけで劣化する
7.3 データ品質テスト劣化に気づくための品質チェック
7.4 メタデータ品質生産性を向上させるために
7.5 データ品質を向上させる品質テストの結果を活かす
7.6 本章のまとめ

第8章データ分析基盤から始まるデータドリブンデータ分析基盤の可視化&測定
8.1 データ分析基盤とデータドリブンエンジニアもデータドリブンに行こう
8.2 データドリブンを実現するための準備データ分析基盤のPDCAと数値
8.3 KPIをどのように開発に活かすのかデータ分析基盤の「コスト削減KGI」の例
8.4 データ分析基盤観点のKGI/(CSF)/KPI 改善の着眼点
8.5 本章のまとめ

Appendix [ビッグデータでも役立つ]RDB基礎講座
A.1 データベースとは何か? 検索、更新、制約機能を持った入れ物
A.2 RDBの基本データベースの基本を振り返る
A.3 RDBにおけるアーキテクチャ RDBの設計
A.4 Appendixのまとめ