実践的データ基盤への処方箋

書籍キャッチコピー
データ・システム・組織の側面から、データ基盤実践のための豊富なノウハウをまとめました!
著者名
ゆずたそ, 渡部 徹太郎, 伊藤 徹郎
出版社名
技術評論社
価格
2640
ページ数
224
出版年月日
2021/12/11


本書のポイント

  • データ基盤の技術や知識に加えて、ビジネス価値を創出するための不可欠な現場のノウハウを知ることができる。
  • 使えるデータ基盤を作り上げるためのノウハウを「データ」「システム」「ヒト」の3つの観点から総合的に解説している。
  • 各ノウハウの概念的な紹介に加え、経験豊富な著者らのTips・実例が随所にあり、ひとつひとつのポイントを実例を通じて理解しながら読みすすめることができる。

レビュー

データ活用を企業で進めていこうとすると、早い段階でデータ活用のためのデータ基盤を作っていく必要があることに気づく。

データ基盤とは、企業が継続的にデータ活用するための仕組みに他ならないが、「ではどうやってそれを作るのか?」について、データ基盤整備にこれから関わる初級者が簡単に全体像を把握できるような書籍は殆どなかった。

本書では、そういったデータ基盤に関わる、これから関わろうとする方々のために「データ」、「システム」、「ヒト」の3つの切り口で、実践的なデータ基盤の構築ノウハウの全体像を解説している点がポイントだ。

第1章データ活用のためのデータ整備では、データが生成されてから活用されるまでの一連の流れを解説している。生成から活用まで左側から右側へデータを流していくだけなのになぜうまく行かないのか、どこで問題が発生しているのかを実例をもとに学ぶことができる。完全に同じことが読者の職場で起きていることは少ないと思うが、類似の問題は多かれ少なかれ、どこにでもある。本書で紹介されているアンチパターンやよくあるデータ整備の課題と対策を学ぶことはデータ基盤を考える上で参考になる。

第2章データ基盤システムの作り方では、データ基盤を作り上げる際の勘所がシステムの観点で切り分けられて紹介されている。データの収集方法、データベースへの負荷、分析用DB、ワークフローエンジン等、システム上、押さえておくべき論点・ポイントを把握することができる。

第3章データ分析の組織では、データ活用を支える組織・人材・ルールを解説している。特に人材については、日本ではあまり知られていないデータスチュワード(利用者ニーズを汲み取り、データを整備する役割を担う)など、データ基盤を運用・改善していく上で欠かせない役割が整理されており、自社内でどのような人材を確保していくべきかの指針が得られる内容になっている。

上記のように本書は使えるデータ基盤を作るためのノウハウに特化しているため、もしSQLやPython等による具体的な実装方法を知りたいという方は別の専門書を読むことをおすすめする。

データ基盤がうまく機能していないのをどうにかしたい、これからデータ基盤を構築したいけど何に気をつければよいかわからない、という課題を持っている読者にこそ価値のある一冊である。

目次

第1章 データ活用のためのデータ整備
1-1 データの一連の流れを把握し、入口から出口までを書き出す
1-2 データの品質は生成元のデータソースで担保する
1-3 データが生じる現場を把握して業務改善につなげる
1-4 データソースの整備ではマスタ・共通ID・履歴の3つを担保する
1-5 データレイク層の一箇所にデータのソースのコピーを集約する
1-6 データウェアハウス層では分析用DBを使って共通指標を管理する
1-7 共通指標は本当に必要とされるものを用意する
1-8 特定用途に利用するデータマートはユースケースを想定してつくる
1-9 ユースケースを優先的に検討しツールの整備を逆算する
1-10 データの調査コストを減らすためにメタデータを活用する
1-11 サービスレベルを設定・計測して改善サイクルにつなげる
1-12 データ基盤の品質を支えるデータスチュワードの役割を設ける

第2章 データ基盤システムのつくり方
2-1 一般的なデータ基盤の全体像と分散処理の必要性を理解する
2-2 データソースごとに収集方法が違うこと、その難しさを理解する
2-3 ファイルを収集する場合は最適なデータフォーマットを選択する
2-4 APIのデータ収集では有効期限や回数制限に気をつける
2-5 SQLを利用したデータベース収集ではデータベースへの負荷を意識する
2-6 データベースの負荷を考慮したデータ収集ではエクスポートやダンプファイル活用を視野に入れる
2-7 更新ログ経由のデータベース収集はデータベースの負荷を最小限にしてリアルタイムに収集できる
2-8 各データベース収集の特徴と置かれた状況を理解して使い分ける
2-9 ログ収集はエージェントのキャパシティに注意
2-10 端末データの収集は難易度が高いためできるだけ製品を利用し無理なら自作する
2-11 ETL製品を選ぶポイントは利用するコネクタの機能性とデバッグのしやすさ
2-12 データレイクでは収集したデータをなくさないようにする
2-13 データウェアハウスには抽出や集計に特化した分析用DBを採用する
2-14 分析用DBはクラウド上で使い勝手が良い製品を選ぶ
2-15 列指向圧縮を理解して分析用DBが苦手な処理をさせないように気をつける
2-16 処理の量や開発人数が増えてきたらワークフローエンジンの導入を検討する
2-17 ワークフローエンジンは「専用」か「相乗り」かをまず考える

第3章 データ分析の組織
3-1 アセスメントによって組織の現状を客観的に把握する
3-2 組織の状況に合わせて組織構造を採用する
3-3 データ組織の成功に必要な要因を理解する
3-4 データ組織を構成する職種と採用戦略の基本を押さえる
3-5 データ活用とセキュリティはトレードオフの関係にあることを理解する
3-6 組織の利益となるデータのセキュリティポリシーとそのセキュリティ基準を決める
3-7 適切な権限設定とリスク管理方法を定める
3-8 データ利用や権限管理などの運用ルールをドキュメント化する
3-9 担当、見直しサイクル、判断基準を決めてデータやツールの棚卸を定期的に行う
3-10 不正アクセスに備えてデータ保護や匿名加工技術を適用する
3-11 監査では評価方法を理解して客観性を担保する

この書籍に興味がある人へのおすすめ


レビューワー

Toru_Hasegawa

関連記事

  1. コンサル一年目が学ぶこと

  2. データ×AI 人材キャリア大全 業種・業務別に見る必要なスキルとキャリア設計

  3. Google Cloudではじめる実践データエンジニアリング入門 業務で使えるデータ基盤構築

  4. アフターデジタル2 UXと自由

  5. 基礎統計学Ⅰ 統計学入門

  6. 効果検証入門〜正しい比較のための因果推論/計量経済学の基礎

  7. 最短コースでわかる PyTorch &深層学習プログラミング

  8. ゼロから作るDeep Learning

  9. だから僕たちは組織を変えていける やる気に満ちた「やさしいチーム」の作り方