@hihihiroroのLog

ダラダラと。本ブログは、個人の意見であり、所属会社とは関係がありません。

「ハンズオンで分かりやすく学べる Google Cloud実践活用術 データ分析・システム基盤編」を読んだ

データ分析とコンテナ環境についてのハンズオンしながらの説明本だったので試してみた。
どちらも興味あるし関わっている分野だったので読者として狙われたのかなと思いながらやった。

目次は以下

第1章 ビッグデータサービスの概要
第2章 BigQuery を体験する
第3章 BigQuery の内部構造
第4章 タイムトラベル機能を使ったデータの復元
第5章 BigQuery へのデータ取り込み
第6章 Data Catalog を用いたメタデータの管理
第7章 リアルタイム分析
第8章 セキュリティ設計とコスト管理
第9章 コンテナの仕組みと歴史
第10章 コンテナを体験する
第11章 コンテナオーケストレーションの仕組みとKubernetes の特徴
第12章 Google Kubernetes Engine (GKE) を体験する
第13章 GKE を活用した設計のポイント
第14章 GKE を使ったシステム運用のポイント
Appendix Google Cloud の基本

前半のデータ分析編ではBigQuery を構造データ、Cloud Storage を非構造データを置くデータレイクとしての設計が紹介されている。そしてGoogle Cloud 上でのクラウドネイティブなデータ分析アーキテクチャのベストプラクティスが紹介されている。また、BigQuery をメインとして使うためにSQL などデータを参照するための方法、BigQuery の内部構造の説明などがされている。ここでは分散インメモリーシャッフルや分散ストレージなど知っておくとデータのロードやクエリを書く際の役に立ちそうな知識が学べた。
その後 FOR SYSTEM TIME AS OF を使ってのデータの復元方法などが紹介されている。このあたりを使用しての運用方法についての考え方も勉強になったが一部は実施している内容だった。
そしてデータ基盤への代表的な7つの取り込み手法として以下が紹介されている。

  1. Dataflow + Dataflow テンプレート
  2. Dataflow +Cloud Dataprep
  3. Dataflow + Apache Beam
  4. Dataproc のみ
  5. Dataproc +Cloud Data Fusion
  6. BigQuery Data Transfer Service
  7. Transfer Service

いくつかは使ったことがあるが使ったことのないサービスもあるのでちゃんと試してみたいなと思った。また、これらをどういった基準で選べばよいのかは触ってみた感想も交えてまとめておきたい。

その後のメタデータ管理とストリーム処理に関しては今年に考えてみようと思っていたので勉強できたのは良かった。ただ、まだ具体的にどうするかは決まらなかったので今後も情報を集めたり、試したりをしたい。また、データ分析での最後の章のセキュリティ設計とコスト管理ではプロジェクト分離やIAMの設計例が載っていたり、VPC Service Controls を用いてのデータ流出防止が説明されている。ここに関してはハンズオンで試せてないのでまたちゃんと読んでみようと思う。自分が管理しているシステムでこのあたりの問題がないかも確認をしてみようと思った。

システム基盤編ではGKE を使用するためにまずコンテナの説明があり、コンテナオーケストレーションとその中のKubernetes の説明がまあまあ詳しくされている。初めて見る人でも一通りの知識は身に着けれそうだなと思った。
このあたりは僕は他の本でも勉強しているのでサラリと読みすすめた。後半で勉強になったのは13章の設計のポイントと14章のシステム運用のポイント。Kubernetes の設計・運用についてではなくGKE に特化しての話もあるので面白かった。こちらも現在運用しているクラスタがあるので問題ないんだっけとかは確認してみようと思った。

まとめ

  • データ分析・システム基盤編ってっ自分にささる本だったので面白かった
  • BigQuery について詳しく説明されていることが多く勉強になることがあった
  • データ分析編の中で今後やってみたいことも説明されていたので試してみる