［増補改訂］ビッグデータを支える技術 ——ラップトップ1台で学ぶデータ基盤のしくみ WEB+DB PRESS plus

作者:西田圭介
発売日: 2021/02/10
メディア: Kindle版

2018年に読んだ本の改訂版が出ていたので読んでみた。 hihihiroro.hatenablog.com

第1章ビッグデータの基礎知識
第2章ビッグデータの探索
第3章ビッグデータの分散処理
第4章ビッグデータの蓄積
第5章ビッグデータのパイプライン
第6章ビッグデータと機械学習
第7章 [実践]ビッグデータ分析基盤の構築

大きく変わった点としては機械学習の章が増えていた。特徴量ストアやMLOps についての説明がされている。改訂前ではデータを集め、保存し、処理してマート化し、可視化をしていた。本書ではこれらのデータを用いた機械学習のフレームワークを実現するための方法が少しだけ書かれている。昔に比べてデータが使われるようになってきたということなのだろう。

改訂前を読んだときはデータを貯めてクエリを投げることだけをするシステムを作っていた時だったのでマート作成やデータフロー、ワークフローなどについてはそういうのを気にする必要があるのかと思いながら読んでいるだけだった。今はデータエンジニアとしてデータパイプラインの整備をしていることもあり自分の身にかかってくるものと思って今回は全章読み込めた。

改訂前と同じく用語や技術についての説明、それぞれの工程で気にするべきことその対策についてなどが細かく書かれている。データに関わっている人たちに読んでもらって用語の統一などが大事だなと思った。同じ話をしているはずなのに、話が噛み合わないときなどがあるので前提として用語についてはズレがないようにしたいと思うことが多い。本書のように説明する資料を社内で作ってあると良さそうだなと思った。

40を超えるコラムが載っておりそれぞれが面白かった。所々に参考資料のURLが載っているので調べたくなったらそのURLをたどっていけば詳しく調べることができそうで良かった。いくつかの事柄については知らないこともあったので辿らせてもらった。

またタイトルに有る「ラップトップ1台で学ぶデータ基盤のしくみ」は本書で紹介されている技術のいくつかを用いてローカルで試す7章によるものだと思う。ここで簡単なETL作成、クエリ実行、ダッシュボードによる可視化、ワークフローでの実行などが試すことができるので、読んだ内容について試すことができて良かった。