@hihihiroroのLog

ダラダラと。本ブログは、個人の意見であり、所属会社とは関係がありません。

「AWSではじめるデータレイク」を読んだ

読むんだと決めて買ってから1年以上経ってしまったけどようやく読んだ。

序章 データレイクを始めよう
第1章 データレイクの構築
第2章 データレイクの活用
第3章 データレイクの運用
第4章 データレイクのセキュリティ
第5章 ハンズオンの概要 - ビジネスデータのデータレイク -
第6章 データを可視化する
第7章 サーバレスSQL によるデータ分析
第8章 データを変換する
第9章 データを分析する(データウェアハウス)
第10章 システムの概要 - ログデータのデータレイク -
第11章 ログを集める
第12章 ログの保管とカタログ化
第13章 ログを加工する
第14章 ログを分析する

本書は3部構成になっている。1部ではデータレイクのコンセプトが解説されている。2部では基本的なデータレイクの構築を試すことができる。最後の3部では応用的なデータレイクの構築を試すことができる。基本的な内容としてはファイルからデータを取り込んで試している。応用編ではログを取り込んでのデータレイク作成、分析を試すことができた。タイトル通りなので構築はAWS 上でになる。

コンセプトについては以下の内容となっている。
1章では用語の説明やデータレイクのアーキテクチャの説明からそれぞれのレイヤで必要となるコンポーネントについてそれぞれ説明がされている。その中でもデータの保存先のストレージについての説明がされている。可用性や耐久性、スケーラビリティ、コスト、セキュリティや権限周りについて解説されている。またデータを貯めるだけでは使いにくいとの説明からデータカタログの重要性やデータを使いやすくするための変換ツールについての説明がされている。
2章では蓄積されたデータを活用するための方法として、BI、アドホックSQL 分析、定常的なSQL 分析、応用的な分析と4つが説明されている。また、それ以外にストリームデータの活用としてリアルタイムダッシュボードとストリーム分析アプリケーションが説明されている。利用者の区分によって適した活用方法が変わってくる。それ以外にもやりたいことにより使うべきシステムも変わることが解説されている。それぞれでうまく使えるものを使える基盤を作るのが良いのだろう。
3章では作ったデータレイクを運用していくために必要なことが説明されている。まずはデータレイクが正しく動いていることを保証するために「正常」の定義を行うことからはじめている。その後SLA を守るための監視、パフォーマンスのための監視と改善などが説明されている。あとは大事なデータをなくさないためのバックアップ、いらないデータの削除、アクセス履歴取得の必要性が書かれている。監視は目的に合わせてやるべきことを分ける必要があると思った。できてないことはやってみたいと思った。
4章ではセキュリティについて解説がされている。データレイクを1つのサービスと見立てのセキュリティについてまとめられている。具体的にはアクセス制御や暗号化、権限管理について解説されている。権限については異動の話など具体的な話も出てて面白かった。

このあとはAWS のサービスを使ってデータレイクの構築を試すことが続く。簡単に手軽にできたので面白かった。ただ、これから利用者やデータがどんどん大きくなっていったときはどうなるのかは気になった。

まとめ

  • データレイクについてまとめられていてわかりやすかった
  • アーキテクチャの話もいくつか出ていて実際にどう組めば良いか想像しやすかった
  • 実際にサービスを使って見ることができたので面白かった