@hihihiroroのLog

ダラダラと。本ブログは、個人の意見であり、所属会社とは関係がありません。

「[増補改訂]ビッグデータを支える技術」を読んだ

2018年に読んだ本の改訂版が出ていたので読んでみた。 hihihiroro.hatenablog.com

第1章 ビッグデータの基礎知識
第2章 ビッグデータの探索
第3章 ビッグデータの分散処理
第4章 ビッグデータの蓄積
第5章 ビッグデータのパイプライン
第6章 ビッグデータ機械学習
第7章 [実践]ビッグデータ分析基盤の構築

大きく変わった点としては機械学習の章が増えていた。特徴量ストアやMLOps についての説明がされている。改訂前ではデータを集め、保存し、処理してマート化し、可視化をしていた。本書ではこれらのデータを用いた機械学習フレームワークを実現するための方法が少しだけ書かれている。昔に比べてデータが使われるようになってきたということなのだろう。

改訂前を読んだときはデータを貯めてクエリを投げることだけをするシステムを作っていた時だったのでマート作成やデータフロー、ワークフローなどについてはそういうのを気にする必要があるのかと思いながら読んでいるだけだった。今はデータエンジニアとしてデータパイプラインの整備をしていることもあり自分の身にかかってくるものと思って今回は全章読み込めた。

改訂前と同じく用語や技術についての説明、それぞれの工程で気にするべきことその対策についてなどが細かく書かれている。データに関わっている人たちに読んでもらって用語の統一などが大事だなと思った。同じ話をしているはずなのに、話が噛み合わないときなどがあるので前提として用語についてはズレがないようにしたいと思うことが多い。本書のように説明する資料を社内で作ってあると良さそうだなと思った。

40を超えるコラムが載っておりそれぞれが面白かった。所々に参考資料のURLが載っているので調べたくなったらそのURLをたどっていけば詳しく調べることができそうで良かった。いくつかの事柄については知らないこともあったので辿らせてもらった。

またタイトルに有る「ラップトップ1台で学ぶデータ基盤のしくみ」は本書で紹介されている技術のいくつかを用いてローカルで試す7章によるものだと思う。ここで簡単なETL作成、クエリ実行、ダッシュボードによる可視化、ワークフローでの実行などが試すことができるので、読んだ内容について試すことができて良かった。

まとめ

  • データの取得から可視化まで図解込み、説明ありで紹介されていた
  • データパイプラインについての知識補完ができそう
  • 支える技術がわかるのでちゃんとした勉強は他の本でもやっていこう