@hihihiroroのLog

ダラダラと。本ブログは、個人の意見であり、所属会社とは関係がありません。

「ビッグデータを支える技術」を読んだ

ビッグデータという響きに乗って買ったけれども読んでなかったが、お盆で時間もできたことだしと読んでみた。

著者はGoogleを支える技術を書いた西田圭介さん。MapReduceの基本的な考え方を学んだのはこの本だったなと思い出した。

最近はデータ分析についての本が多いと思うが、本書はデータを活用するための基盤をどのようにシステム化するかについて書いてある。

データを

  • どのように集めるか
  • どのように保存するか
  • どのように処理するか
  • どのように可視化するか

がまとめられてわかりやすく説明されていると思った。
特定のフレームワークや技術について書いてあるわけでもなく、データを集め加工するために考えなくてはいけないことが体系立てて書いてあった。それぞれの技術がなぜ生まれたのか、その時々の実現したいことによって適切とされるアーキテクチャについても説明があった。

それぞれの処理で問題になりそうなこと、問題になった際の解決への考え方を書いているのも自分で運用していくために必要な知識としてとても勉強になった。

また、最後の章にはクラウドサービス(AWSGCP、TDなど。Azureはなかった…)によるデータパイプラインの特徴と違いについての説明もあった。
それぞれの違いについても軽く紹介されていたので自分が使う際にどれを使うか選ぶ際の参考になりそう。

まとめ

データの蓄積から分析基盤作りまでが図解込みで優しく説明されていた。いままで有耶無耶になっていた部分を埋めることや、これからデータパイプラインを作成しようとしている人にはとても良い本だと思う。
紹介されている技術については触りしか書いてないのでここで学んだものを自分で調べて使う、構築して綺麗なパイプラインを作っていきたいと思った。

Googleを支える技術 ?巨大システムの内側の世界 (WEB+DB PRESSプラスシリーズ)

Googleを支える技術 ?巨大システムの内側の世界 (WEB+DB PRESSプラスシリーズ)