@hihihiroroのLog

ダラダラと。本ブログは、個人の意見であり、所属会社とは関係がありません。

「ビッグデータ分析のシステムと開発がこれ1冊でしっかりわかる教科書」を読んだ

仕事変わって1年ほど経つがあまり詳しくなった気がしないので、周りで持っている人たちが多かったので読んでみようと思った。

  1. ビッグデータ分析の全体像
  2. ビッグデータ分析システムのアーキテクチャ
  3. 分散処理の基礎
  4. 機械学習の基礎
  5. ビッグデータの収集
  6. ビッグデータの蓄積
  7. ビッグデータの活用
  8. メタデータ管理

ビッグデータ分析の全体像として関係する用語が説明されている。
ビッグデータ分析システムについて、生成→収集→蓄積→活用までの流れが説明されている。
また、ビッグデータに関係する人として、

  • 事業組織の中に事業システム担当
  • 分析組織の中に、サイエンス担当、エンジニアリング担当とデータビジネス担当
  • 事業組織の中に、データ閲覧者、データ利用者

が紹介されている。

分散処理の基本では、分散処理が必要になった理由をボトルネックについての解説から始まり、ストレージ、計算、ネットワークとリソース管理について説明がされている。これから触る人にもさらっと読みやすく書いてある。今まで触ってて復習をする意味でもさくっと読めて良かった。

機械学習の基礎でも、機械学習とはから始まり、データの準備、開発プロセス、ツールについてなど幅広く書かれている。

データの収集では、バッチデート収集とストリームデータ収集に分けて説明し、それぞれの具体例が書かれており分かりやすかった。具体例が多いので想像がつきやすい。

データの蓄積では、データレイクとデータウェアハウスの説明から始まり、データウェアハウス製品の紹介がされている。

最後のメタデータ管理では、静的メタデータと動的メタデータの説明がされている。それぞれがどのようなものか説明されており、さらに必要になるタイミングも説明されている。実際にデータを使っているとメタデータは重要だと思うことが増えてきた。しかし、最初から設計していないで途中から追加しようとすると難しい。だけれども、どうにかこうにかちゃんと管理をしたいなと思う。メタデータ管理について、データ基盤に関わっている方々と話し合いをしてみたい。

まとめ

  • データ分析に関わる用語を勉強できた
  • 実際に構築した話などが入っていたので具体例が多くあやふやだった箇所が納得できた
  • データエンジニアって大事なんだなと思えた

データマネジメント知識体系ガイド 第二版

データマネジメント知識体系ガイド 第二版

ビッグデータ分析・活用のためのSQLレシピ

ビッグデータ分析・活用のためのSQLレシピ