@hihihiroroのLog

ダラダラと。本ブログは、個人の意見であり、所属会社とは関係がありません。

「改訂新版 Google Cloudではじめる実践データエンジニアリング入門」を読んだ

約4年経って改訂新版が出たらしい。実はだいぶ前にいただいたのだが一回読んだのでと放置をしていた。
Google Cloud Next Tokyo 25 に行ったことでもっと勉強をしなければと思うことが多かったのでせっかくなので読んでみることにした。

以前の感想はこちらにある。
hihihiroro.hatenablog.com

改訂新版の目次はこちら。
目次は変わってないかな。

第1章 データ基盤の概要
第2章 データウェアハウスの概念とBigQuery の利用方法
第3章 データウェアハウスの構築
第4章 レイクハウスの構築
第5章 ETL/ELT 処理
第6章 ワークフロー管理とデータ統合
第7章 データ分析基盤におけるセキュリティとコスト管理の設計
第8章 BigQuery へのデータ集約
第9章 ビジネスインテリジェンス
第10章 リアルタイム分析
第11章 発展的な分析 - 地理情報分析と機械学習、非構造データ分析

Google Cloud 内部の方々が筆者になって書かれている内容なので、信頼感を持ちながら読みすすめることができた。Google Cloud のサービスについて書かれていることはもちろんだが、データ基盤そのものについての説明がされているので、データ分析やデータ基盤に関する知識についても学ぶことができる。

旧版と新版での違いってなんだろうなと思ったのだが4章が旧版だとデータレイクとなっていたところが新版だとレイクハウスになっていた。データはストレージにあるものをBigLake テーブルで使うのは楽だなと思うことがある。自分で試してみた範囲だと速度にそこまでの大きな速度差はなくBigQuery すごいなと思った印象。
関わらせていただいているいくつかの場所でもGoogle Cloud で直接サービス動いているものが少なく、データをどうにか持ってこないといけないことが多々ある。その際にストレージに置いてそれを使うというのは選択肢の一つになりえるし、非構造化データとの組み合わせも増えてくると便利なんだろうなと感じた。

ところどころでツールの使い分けの話が書かれているのがとても助かる。同じようなことができるけど実際にどれを使うのが良いのか、何を基準に選べるのかが差として記載されている。ETL/ELT ツール、ワークフローツール、BI ツールなどデータを扱う上で考えることがあるので今後も参考にさせてもらいたいと思った。
実際に環境を構築して試せるようなコードも載っているので実際に試せるのも良いなと思った。また、章末には環境の削除まで記載があるためゴミが残ってお金が無駄にかかってしまうことも考えられておりさすが細かいなと思った。

本文も面白いが本書の中で僕が好きなのは章末コラムの数々。旧版に比べると4つ(?) 増えているのかな?
BigQuery と複数環境での話が出てきているあたりが数年の間での進化を感じる。得意不得意があるだろうからそれぞれが使いやすい場所で無駄なく利用できるようにすることは大切なのだろうな。

  • データアナリストを楽にするBigQuery の便利機能
  • BigQuery とGoogle における大規模データ処理の歴史
  • データを効率的、安全に共有する
  • マルチクラウドでのクラウドデータ基盤の利用
  • Apache Beam とDataflow の関係は?
  • データの前処理を行うための機能
  • Google Cloud におけるジョブオーケストレーションの選択肢
  • データ暗号化とデータ損失防止
  • Firebase を用いたデータ分析の活用法
  • リモート関数による拡張
  • Dataflow のアーキテクチャと分散処理におけるコンピュート、ストレージ、メモリの分離
  • Pub/Sub のアーキテクチャ

最近はAI-Ready、Agent-Ready ということがデータ基盤にも求められてきている。その際に利用できるツールはたくさんあるのだろうと思う。知識として本書はとても役にたつ。しかし、実際に触り始めると細かいところが気になることが所々出てくる。公式ドキュメントを読めば全てが書かれているのかもしれないが僕は手を動かさないとイマイチ理解できない、覚えれないことがある。
幸いにも現在働いている会社では個人のクラウド利用を支援してもらえる制度がある。この制度を使わせてもらってツールを使っての勉強をしてみたいなと思った。

blog.recruit.co.jp

まとめ

  • Google Cloud 上でデータ基盤を作る際に必要な知識が一通り学び直せて良かった
  • 章末コラムも面白くて勉強になる。アーキテクチャの話は覚えておきたい
  • 実際にサービスを触ってみて感触を確かめたいと思う