@hihihiroroのLog

ダラダラと。本ブログは、個人の意見であり、所属会社とは関係がありません。

「AWSではじめる実践データマネジメント」を読んだ

データマネジメントはやらなきゃなって言い続けているので見かけたので読んでみる。

目次は以下。

第1章 データマネジメントとAWS
第2章 データに欠損値や誤りがあり、正しく分析できない
第3章 データ加工処理が複雑で読み解けない
第4章 同じ顧客や企業が重複して登録されている
第5章 データの意味や使い方がわからない
第6章 部門ごとに見せられるデータが異なり、他部門に横展開できない
第7章 分析データに含まれる個人情報の取り扱いに苦慮している

目次を見るとわかるが章のタイトルが用語とかではなく、こういったことをやりたいというのがわかりやすい説明になっている。
第1章ではDAMAホイールを用いながらデータマネジメントの11領域のテーマについての説明がされている。11の知識領域は以下。

  • データガバナンス
  • データアーキテクチャ
  • データモデリングとデザイン
  • データストレージとオペレーション
  • データセキュリティ
  • データ統合と相互運用性
  • ドキュメントとコンテンツ管理
  • 参照データとマスターデータ
  • データウェアハウジングとビジネスインテリジェンス
  • メタデータ
  • データ品質

AWS は年々サービスが出てきているなと思って情報を眺めていた。それらを本書だと順番に試してみることができたので面白かったなと思った。試してみるとS3 に対して実行できるものが多いのでレイクハウス構成にしておくことが基本なのかなと思って眺めていた。この辺りはベンダーによって考え方の違いを感じれるので面白かったな。

目次に出ている問題は自分たちの基盤でも感じている人が多いだろうなと感じることが多い。ただ、自分の立ち位置がしばらく前から微妙だなと思っておりこの辺りに手を出せないのがモヤモヤしている。データに対しての詳しさを極めるようなことができないなと感じている。

上流の方から綺麗にしていく話をよく見る。そりゃそうだろと思いながら僕のところではやることがちょっと難しい。そのため、他とは違うのだけど、データをたくさん持っているのと実行環境を持っていることから実行結果の方から使われるデータの情報や、データの説明がつけれる様にしてみたいなと思っている。

まとめ

  • 実践で試すことができるので面白かった
  • 共有ではなく責任範囲を絞るためにメッシュ構成にしてみたい
  • 実行結果の方の分析をして利用してみたい