データ基盤でも面白いことしたいなと思っているとよくレイクハウスという言葉を見ることがあるので読んでみるかと。
目次は以下。
1章 Delta Lakeにおけるレイクハウスフォーマット 2章 Delta Lakeを導入する 3章 Delta Lakeの操作 4章 Delta Lakeエコシステムの詳細解説 5章 Delta Lakeのメンテナンス 6章 Delta Lakeを利用したネイティブアプリケーションの構築 7章 Delta Lakeへのストリーミングの入出力 8章 高度な機能 9章 レイクハウスのアーキテクチャ設計 10章 パフォーマンスチューニング:Delta Lakeでのデータパイプライン最適化 11章 成功するデザインパターン 12章 レイクハウスのガバナンスとセキュリティの基礎 13章 メタデータ管理、データフロー、リネージ 14章 Delta Sharingプロトコルでのデータ共有
目次からもわかるかと思うがレイクハウスの話というよりはDelta Lake の話。そしてDelta Lake で以下にレイクハウスが作りやすいかの話がされている。
本書の中には実行可能なサンプルコードがたくさん用意されている。そのため、読むだけではなく実際に動作確認をしながら読みすすめることができる。まずは1章でDelta Lake ってなにさって概要を学び、9章のレイクハウスのアーキテクチャを読むことで全体像を把握して3章で実際にDelta Lake を操作してみることで読みやすくなると思った。
しかし読んでみて思ったのだけれどDelta Lake をDatabricks を使わないのでOSS で使うことが本当にあるだろうか?あそこまで揃っているエコシステムの一つだから使うのではないのかと思ってしまった。
ただ、Delta Lake が仕組みとして作っているものはとてもすごいなと感動する。ファイルの設計でここまでメタデータとトランザクションの管理を性能出しながらできるんだと。
レイクハウスの考え方は面白かったので7章、9章と11章あたりは面白く学びになった。
自分たちの基盤に取り込むならどうするか、いまから基盤作るならどう作っていくかを考えてみたいところ。
まとめ
- Delta Lake の機能について学べた
- Unity Catalog 便利だな
- オープンテーブルフォーマットをもう少し深堀りしたい



