本書のポイント
- 「データ基盤」そのものを体系的に整理しながら,Google Cloudの各サービスをどのように活用することで実用的なデータ基盤を構築できるかを知ることができる。
- 発展的なデータ分析ニーズに応えるデータ基盤をどのように設計できるかを知ることができる。
- Google Cloudのマネージドサービスの特徴を押さえてその価値を最大限にデータ基盤に活かした設計ができるようになる。
レビュー
データエンジニアリングを学習しているとデータウェアハウスやデータマート、ELT/ETL、ワークフロー管理などさまざまな語彙について理解することができるが、実際にそれをどう実装するのか? という疑問を持ったときにこちらの書籍で学習することをお勧めする。
本書は全11章に分けてGoogle Cloudを使用したデータエンジニアリングについて解説している。
第1章ではデータ基盤の概要とそれをGoogle Cloudなどのクラウドで実装することのメリットなどについて解説されている。実際にデータ基盤を構築していく際には、運用に足るインフラを用意する必要があるが、これがクラウドであれば従量課金で必要なリソースを必要なだけ用意できる点や、ワークロードの中でコンピューティング、ネットワーク、メモリリソースが分割されていることによる各リソースの最適化を行うことができる。更にGoogle Cloudに関しては各サービスのキャッチアップに最適なチュートリアルやリファレンスも充実しているため、本書で学習した各種サービスの習熟もそう難しいものではないだろう。
第2章から第4章ではデータレイク、データウェアハウス、データマートの要件とそれをGoogle Cloudで構築するために必要な情報が記載されている。Google Cloudのデータ基盤として肝となるサービスに「BigQuery」がある。BigQueryとはGoogle Cloudが提供するデータの管理と分析を支援するフルマネージドなエンタープライズデータウェアハウスサービスだ。Google Cloudでデータ基盤を構築する際、ほとんどの場合はBigQueryを中心として構築していく。そのため本書では、BigQueryの解説を中心としてBigQueryでそれぞれの領域で必要な要件をどう満たすことができるのかというところにフォーカスを当てて説明している。
第5章、第6章ではELT/ETL処理とワークフロー管理について解説されている。Google CloudにおいてはBigQueryをデータウェアハウスとして使用する際はELTを採用することが推奨されており、実際の基盤構築においてもデータをまずはBigQueryに置いて、順次加工していくELTで処理することがベターである、といった具体的な方法論が説明されている。また、BigQueryをELTとして利用できない場合もあるので、その際に代替として利用できるETLサービスであるDataflow(Apache Beamの実行環境として提供されているサービス)の利用方法についても解説がある。
第11章ではBigQueryを使用した発展的な分析について解説されている。地理情報分析などを行う際にBigQueryには地理関数や地理情報を使用するためのGEOGRAPHY型などをサポートしているため、地理情報を利用した分析が可能となっている。さらには機械学習トピックとしてBigQuery MLやAutoML Tablesを利用した機械学習モデルの構築についても解説されている。
その他の章には、データアクセス層としてコネクテッドシートやData Portal(現Looker Studio)を利用したデータ分析やセキュリティとコストについてGoogle Cloudで対応する方法、リアルタイム分析や応用的な分析等、実践的なデータ基盤活用におけるポイントが概説されている。
全ての章を通してGoogle Cloudでデータ基盤を構築する際のベストプラクティスがふんだんに紹介されており、本書は実業務でGoogle Cloudを使用したデータ基盤構築を行う場合に参考になる実用的な内容に富んだ一冊と言える。
本書は全11章に分けてGoogle Cloudを使用したデータエンジニアリングについて解説している。
第1章ではデータ基盤の概要とそれをGoogle Cloudなどのクラウドで実装することのメリットなどについて解説されている。実際にデータ基盤を構築していく際には、運用に足るインフラを用意する必要があるが、これがクラウドであれば従量課金で必要なリソースを必要なだけ用意できる点や、ワークロードの中でコンピューティング、ネットワーク、メモリリソースが分割されていることによる各リソースの最適化を行うことができる。更にGoogle Cloudに関しては各サービスのキャッチアップに最適なチュートリアルやリファレンスも充実しているため、本書で学習した各種サービスの習熟もそう難しいものではないだろう。
第2章から第4章ではデータレイク、データウェアハウス、データマートの要件とそれをGoogle Cloudで構築するために必要な情報が記載されている。Google Cloudのデータ基盤として肝となるサービスに「BigQuery」がある。BigQueryとはGoogle Cloudが提供するデータの管理と分析を支援するフルマネージドなエンタープライズデータウェアハウスサービスだ。Google Cloudでデータ基盤を構築する際、ほとんどの場合はBigQueryを中心として構築していく。そのため本書では、BigQueryの解説を中心としてBigQueryでそれぞれの領域で必要な要件をどう満たすことができるのかというところにフォーカスを当てて説明している。
第5章、第6章ではELT/ETL処理とワークフロー管理について解説されている。Google CloudにおいてはBigQueryをデータウェアハウスとして使用する際はELTを採用することが推奨されており、実際の基盤構築においてもデータをまずはBigQueryに置いて、順次加工していくELTで処理することがベターである、といった具体的な方法論が説明されている。また、BigQueryをELTとして利用できない場合もあるので、その際に代替として利用できるETLサービスであるDataflow(Apache Beamの実行環境として提供されているサービス)の利用方法についても解説がある。
第11章ではBigQueryを使用した発展的な分析について解説されている。地理情報分析などを行う際にBigQueryには地理関数や地理情報を使用するためのGEOGRAPHY型などをサポートしているため、地理情報を利用した分析が可能となっている。さらには機械学習トピックとしてBigQuery MLやAutoML Tablesを利用した機械学習モデルの構築についても解説されている。
その他の章には、データアクセス層としてコネクテッドシートやData Portal(現Looker Studio)を利用したデータ分析やセキュリティとコストについてGoogle Cloudで対応する方法、リアルタイム分析や応用的な分析等、実践的なデータ基盤活用におけるポイントが概説されている。
全ての章を通してGoogle Cloudでデータ基盤を構築する際のベストプラクティスがふんだんに紹介されており、本書は実業務でGoogle Cloudを使用したデータ基盤構築を行う場合に参考になる実用的な内容に富んだ一冊と言える。
目次
第1章 データ基盤の概要
第2章 BigQueryのコンセプトと利用方法
第3章 データウェアハウスの構築
第4章 データレイクの構築
第5章 ETL/ELT処理
第6章 ワークフロー管理とデータ統合
第7章 データ分析基盤におけるセキュリティとコスト管理の設計
第8章 BigQuery へのデータ集約
第9章 ビジネスインテリジェンス
第10章 リアルタイム分析
第11章 発展的な分析
第2章 BigQueryのコンセプトと利用方法
第3章 データウェアハウスの構築
第4章 データレイクの構築
第5章 ETL/ELT処理
第6章 ワークフロー管理とデータ統合
第7章 データ分析基盤におけるセキュリティとコスト管理の設計
第8章 BigQuery へのデータ集約
第9章 ビジネスインテリジェンス
第10章 リアルタイム分析
第11章 発展的な分析
この書籍に興味がある人へのおすすめ
レビューワー
Iwash データエンジニア