データを扱っている人達の間で話題だったので読んでみた。
勉強し直したら再度読み直す。
目次は以下。
1章 データ管理の崩壊
2章 Scaled Architecture の紹介:大規模なデータ管理
3章 膨大な量のデータの管理:読み出し専用データストアアーキテクチャ
4章 サービスとAPI 管理:API アーキテクチャ
5章 イベントとレスポンスの管理:ストリーミングアーキテクチャ
6章 すべてをまとめる
7章 接続可能なデータガバナンスとデータセキュリティ
8章 データを価値に変える
9章 エンタープライズデータ資産の活用
10章 メタデータによるデータの民主化
11章 おわりに
発生するデータが増える、新しいアーキテクチャが発表されるなどでアプリケーションの変更が行われることがたくさん起きている。それに合わせてデータ管理と統合に関する考え方が本書では提案されている。本書の中ではScaled Architecture という名前で紹介されており、データガバナンス、データセキュリティ、データ品質、マスタデータ管理にメタデータ管理などの領域についても記載がされている。
1章では、データ管理の説明と変異について、2章ではScaled Architecture の詳細についての説明がされている。統合アーキテクチャの具体的な例として3章で読み出し専用データストアアーキテクチャ、4章ではAPI アーキテクチャ、5章でストリーミングアーキテクチャが取り上げられており6章ではこれらをまとめた全体像が紹介されている。7章ではデータガバナンスとセキュリティに対する取り組む方法の検討、8章でScaled Architecture のビジネスで使われるケース紹介、9章でマスタデータ管理のガイダンスが続き10章ではメタデータの使い方、11章で将来像の話がされている。
どれもこれも難しい内容となっている。難しい事の理由としてデータのことだけではなくアーキテクチャ、ドメイン駆動設計、マイクロサービス、分散処理、クラウド知識など幅白い知識と考え方を身につけてすすめていかないとどこかで行き詰まってしまうのだろうと思った。今まで以上に勉強をしていかないとデータ基盤を作る、運用するということが時代遅れのまますすめることになってしまうのだろうなと焦りを感じた。
本書で紹介されているScaled Architecture はデータプロバイダとデータコンシューマが簡単に接続でき、柔軟性、コントロール、インサイトを提供できるスケーラブルで高度な分散型アーキテクチャと紹介されている。そして、これらを実装するための原則が紹介されている。ここで使われている考え方やアーキテクチャは知らないものはなかった気がする。それらをうまく組み合わせることや、考え方を混ぜることでうまく実装がされているのだろうなと思った。
まだ自分で完全に理解したという状態には全然なっていないと思う。いくつかの分野については少しは知っている状態だったり、まあ知っているかなという状態で読んだ。面白かったし勉強になったなと思っうことはあったが、自分が運用しているシステムに落とし込んでいくためにはまだまだ全然足りていない知識が多いと思う。また、本書ではデータレイヤの説明がされているがそこに入り込んでいくにはデータを連携するだけではなく、システムやビジネスとちゃんと話をしたり、一緒に作業をしていく必要があるのだろうなと思った。今後このあたりについては組織の話も出てくるだろうなと思ったが、まずは技術的な内容で話ができるようになるぞと思った。
まとめ
- データ管理について進化しなきゃいけないことが沢山あることが分かった
- 自分の理解があさいなと思うことがいっぱいあって面白かった
- ソフトウェア開発について再度勉強をし直してみよう