@hihihiroroのLog

ダラダラと。本ブログは、個人の意見であり、所属会社とは関係がありません。

「エンジニアのためのデータ分析基盤入門」を読んだ

発売日前からタイトルが気になっていたので本屋でみかけたので買って読んでみた。

目次は以下。

第1章 [入門]データ分析基盤
第2章 データエンジニアリングの基礎知識
第3章 データ分析基盤の管理&構築
第4章 データ分析基盤の技術スタック
第5章 メタデータ管理
第6章 データマート&データウェアハウスとデータ整備
第7章 データ品質管理
第8章 データ分析基盤から始まるデータドリブン
Appendix [ビックデータでも役立つ]RDB基礎講座

データ分析手法ではなくデータ分析基盤についての話がされている。
本書ではデータ分析基盤の構造を4つのレイヤーで紹介している。レイヤーは以下。

  • コレクティングレイヤー ⇒ データを集める
  • プロセシングレイヤー ⇒ データを処理する
  • ストレージレイヤー ⇒ データを保持する
  • アクセスレイヤー ⇒ データを利用する

4章ではこれらのレイヤーでよく使われる技術が紹介されている。このあたりの技術を組み合わせて作ればデータ分析基盤を作ることはできるなと思った。
5章ではデータを利用するためには必要なメタデータについて説明がされている。メタデータがなぜ必要なのかの説明があり、ビジネスメタデータ、テクニカルメタデータ、オペレーショナルメタデータメタデータの種類が紹介され、それぞれのメタデータの代表的なデータが紹介されているのでデータ取得できてないものはしないとなという気分になった。
6章ではDIKWモデル*1が説明されており、その後データマートを作る役割、データマートを作る際に使えるスキーマの説明などからメタデータ整備、使われなくなったら削除することなどがかかれている。

7章ではデータ品質について書かれており、いつもデータの品質を高くしたいって言ってるけど品質って具体的にはなんだろうと思っていたので面白かった。本書ではデータ品質を測定する要素として正確性、完全性、一貫性、有効性、適時性、ユニーク性の6個が紹介されている。それだけではなく長期間放っておくとデータが劣化の問題も発生するのでそちらについても説明されている。ここらへんについてはまだうまくできていないのでどう提供できるのかを今後考えていかないとなと思った。

8章では前章までで紹介されたデータ分析基盤を改善するためにできることが紹介されている。データ分析基盤を改善するために取得すると良いデータが紹介されており、それらが改善されるために活動することがすすめられている。データ分析基盤なんだからデータ使って改善しないとなと思う内容だった。

まとめ

  • データ分析基盤がどういったものかを入門するにはちょうど良さそうだった
  • データ分析基盤の構造を分割して説明されているのでわかりやすかった
  • 自分たちのデータ分析基盤でできてないことが見つかったのでやっていこうと思った

*1:Data、Information(情報)、Knowledge(知識)、Widsom(知恵)