データエンジニアとして頑張ろうと思っているのでまずは薄い本から読んでみることにした。
目次は以下。
第1章 データ基盤とは
第2章 Snowflake とは
第3章 Snowflake の導入と操作
第4章 権限管理とガバナンス
第5章 実践的データ基盤の構築
第6章 ETL とReverse ETL
第7章 データオーケストレーション
第8章 BI ツール
第9章 データアプリケーションと分先
タイトルにSnowflake と書いてあるがデータ基盤について話がたくさん書かれているのでSnowflake を使わないとしても勉強になる。本書ではデータ基盤の構成として以下が紹介されている。
- データウェアハウス
- データレイク
- ETL/ELT
- リバースETL(データアクティベーション)
- データ変換管理
- ビジネスインテリジェンス(BI)
- データオーケストレーション
- データオブザーバビリティ
- データカタログ
Snowflake を使ってみた感想としては、ロールベースでの権限管理が徹底されていてデータを管理して提供する側としてはとてもやりやすいなと思った。そしてスキーマ、テーブルだけではなく、ユーザや実行環境に関してもすべてSQL で作成することができるなどが面白かった。またPython の実行環境なども用意されておりやりたいことがいろいろと実行できるようになっており便利。データ共有がとてもやりやいものだなというのもあった。
ETL については最近Embulk 以外でバッチ処理をうまくやるものについては興味があって調べている。Embulk はいろいろ使いやすいがJava のバージョンだったり起動時間などが気になることが増えてきており、もう少し早く使いやすいものないかなと思っている。また、DWH からデータを書き戻すReverseETL もユーザ要望が徐々に増えているなと感じているのでツールについていくつか紹介されていたので使ってみたいと思う。また、データを活用していく用語としてデータアクティベーションというのを初めて知った。
他にもオーケストレーション、BI ツールについてもツールの紹介がいくつかされており、使ったことがないものもいくつもあったので面白かった。少しでも使いやすいものにしていきたいので触ったことないものについては試してみようと思った。最近は生成AI が徐々に使えるようになってきているのでDWH もメタデータの充足が求められてきているなと感じることが多い。ここについてはあまり説明がなかったので少し残念だった。
まとめ
- データ基盤についての簡単なまとめとして読むのにちょうどよかった
- Snowflake には便利な機能がいくつもあるので使えるところでは使いたい
- 結局データ連携部分って宦官得ることが多いな