@hihihiroroのLog

ダラダラと。本ブログは、個人の意見であり、所属会社とは関係がありません。

「入門 監視」を読んだ

入門 監視 ―モダンなモニタリングのためのデザインパターン

入門 監視 ―モダンなモニタリングのためのデザインパターン

1年越しになってしまったが監視について入門しようと思った。
転職祝いにいただいたのだが、最初少しだけ読んだところ心が痛くなってしまったので放置してしまっていた。
システムについての監視について詳しく書かれているのはもちろん、ビジネスKPIも監視対象として紹介されているのが面白かった。

第I部 監視の原則
  1章 監視のアンチパターン
  2章 監視のデザインパターン
  3章 アラート、オンコール、インシデント管理
  4章 統計入門
第II部 監視戦略
  5章 ビジネスを監視する
  6章 フロントエンド監視
  7章 アプリケーション監視
  8章 サーバ監視
  9章 ネットワーク監視
  10章 セキュリティ監視
  11章 監視アセスメントの実行
付録A 手順書の例:Demo App
付録B 可用性表
付録C 実践 監視SaaS

アンチパターンデザインパターン

アンチパターンとして、以下が紹介されている。

  1. ツールに依存しても監視の質は上がらない
  2. 監視は全員がやるべきもの、スキルであり役割ではない
  3. 素晴らしい監視とは、チェックボックスにチェックを入れるだけで済む物ではない
  4. 監視するだけでは壊れたものは直らない
  5. 自動化が足りていないということは何かが足りていない

このアンチパターンから監視のデザインパターンが紹介されている。

  1. 組み合わせ可能な監視の仕組み
  2. ユーザ視点有線での監視を作成
  3. 監視の仕組みは、自分で作るのではなくできるだけ買うことを選ぼう
  4. 常に改善しよう

アラート、オンコール、インシデント管理

システムは壊れる、しかも人は簡単に燃え尽き症状になってしまう。
そうならないためそれらを防ぐためのベストプラクティスが紹介されている。

  1. アラートにメールを使うのをやめよう
  2. 手順書を書こう
  3. 固定の閾値を決めることがだけが方法ではない
  4. アラートを削除し、チューニングしよう
  5. メンテナンス期間を使おう
  6. まずは自動復旧を試そう

そしてこの後、オンコールの担当を上手くローテーションを回すようにするための方法、インシデント管理するためのフレームワークが紹介されている。

監視戦略

第II部は、ビジネス、フロントエンド、アプリケーション、サーバ、ネットワーク、セキュリティ。
上記について、それぞれ「何を監視するか」、「どう使うべきか」が書かれている。
特に、サーバ、ネットワークについては標準的なメトリクスや取得方法、見方について詳しく書かれている。サーバを直接触るわけではない人もどう動いているかを知るために是非とも読んでおくと良いと思った。

実践 監視SaaS

はてなMackerelを例としながら、SaaSの選定基準などが @songmuさんによるまとめがあるのでここを読むだけでもこの本を買う価値があるのではないかと思う。
ここで言われている、
自分で監視を作る」→「監視を育てる
が大事なことだなと思った。

まとめ

  • 銀の弾丸はない
  • ユーザへの影響を考えて取るべきメトリクスを決める
  • 監視は作って終わりではなく、育てることが大事

Mackerel サーバ監視[実践]入門

Mackerel サーバ監視[実践]入門