@hihihiroroのLog

ダラダラと。本ブログは、個人の意見であり、所属会社とは関係がありません。

「クラウドでデータ活用!データ基盤の設計パターン」を読んだ

データエンジニアと肩書につけてから1年8ヶ月が経った。
DockerやKubernetes*1の本が溜まっていたのでそのあたりの本を読むのを先に行い、ようやく今の仕事に関わる本にも手を出し始めた。

第1章 データ基盤の現在
第2章 データ基盤3パターン
第3章 クラウドで作るデータ基盤
第4章 データ基盤のこれからの課題
第5章 データ管理の体制づくり

データ基盤として以下の3パターンが紹介されている。

  • データレイク型 ・・・すべてのデータを溜めて、用途に応じて取り出し加工
  • 統合型 ・・・1つの製品に機能を集約
  • 分散型 ・・・複数のデータベースが分散していて、それぞれ個別にデータ連携

それぞれのパターンについて、連携コスト、必要なスキルによってどれを選ぶのか良いかが説明されている。

集積・蓄積フェーズにおける考慮する6つのポイント

  1. データレイクを構築する場所、利用するサービスや製品の選定
  2. データレイクに蓄積するデータのフォーマットを決めるタイミング
  3. データの収集と蓄積のタイミング
  4. エージェントプログラムの有無
  5. メッセージブローカーの有無
  6. データの欠損や重複の扱い方

利用・加工フェーズの2つの設計パターンが紹介されている。本書ではトレンドは倉庫型、オススメは工場型と紹介されている。

  1. データ倉庫型・・・データレイク内で加工せず利用者側で加工する
  2. データ向上型・・・データレイク内で加工する

その後には架空の会社を設定して必要なデータ基盤の設計、そのデータ基盤をAWS、Azure、Oracle Cloud での構築例を説明している。
また、現在のデータ基盤を作る話だけではなく、データ基盤の未来像についても話がされている。
データを連携しやすいデータプラットフォームの構築、クラウドサービスごとの強みをうまく活用、対障害性を高めるためマルチクラウドでの切り分け、構築について説明がされている。

最後に、データ基盤の活用のための組織づくりについても軽く説明されている。本書では、データマネジメントを牛機を創設するための5つのポイントを説明している。

  1. データスチュワードの存在
  2. 適材適所な人員配置
  3. スモールスタート
  4. 全体最適
  5. トップの強いコミット

これらの中で自分たちに足りてないもの、すでに動いているため必要ないものなどの見極めをしてうまく当てはめていきたい。

まとめ

  • 薄い本だしさらっとデータ基盤について学ぶのには良かった
  • この辺用語の意味がまとまっていなかったりするから揃えたいな
  • GCP とかAlibaba も流行ってきているから混ぜてほしかった

データマネジメント知識体系ガイド 第二版

データマネジメント知識体系ガイド 第二版

*1:ちなみに今の仕事でも使っている