社内システムを扱っているのだが、自分たちのシステムでSLO を決めたほうが良いのではと言われることが多いのだけど、どう決めて良いかなどわからないので読もうと思った。
第Ⅰ部 SLO の開発
1章 信頼性スタック
2章 信頼性についての考え方
3章 意味のあるサービスレベル指標の開発
4章 適切なサービスレベル目標の選択
5章 エラーバジェットの使い方
第Ⅱ部 SLO の実装
6章 同意の獲得
7章 SLI とSLO の計測
8章 SLO の監視とアラート
9章 SLI とSLO の確率と統計
10章 信頼性を得るためのアーキテクチャ
11章 データの信頼性
12章 適切に機能した例
第Ⅲ部 SLO の文化
13章 SLO 文化の構築
14章 SLO の進化
15章 発見可能で理解可能なSLO
16章 SLO の提唱
17章 信頼性のレポート
序文に良いことが書いてあった。きっとこれが全てなのだろう。
信頼性は会話です。
p.ⅶ
本書では概念の説明から始まり、実装についてや、実際に導入している会社の説明などもあった。また、背景となる統計や確率の基礎知識も説明されている上に、運用を根付かせるための方法や組織への浸透の仕方について幅広く書かれていた。考えなきゃいけないことが多いなとか偉い人をいっぱい巻き込んでいかないとなと思った。
読んだところSLO が高かったとしても、使用ユーザがその高さでも問題があるというならばそれは適度なSLO では無いということになるのだろうな。
ユーザーがシステムに期待する品質についてで考えてしかいなかったけれども、システム運用を行う上で妥協をする場所を決めるということでも使えることは面白い考えだった。ただ、自分たちが妥協をするために低くするとユーザに使われなくなってしまう。その丁度良い目標値を決めるための考え方がいくつも書かれていた。
SLO はSLA と違い契約ではないので何回も見直して、適切値にしていくことが大切らしい。一度決めたあとに変更をすることなんて考えてなかったのでそうなのかと思った。
エラーバジェットやバーンレートなどいろいろな考え方もあったがすべてが自分たちのサービスが使用してくれているユーザが満足できているかどうかで考えていくことが大事なのだと思った。
まとめ
- 理解しきってないので再度読み直してみよ
- オブザーバビリティを読んでも思ったけどSRE 本を再度読んでみたいと思った
- まずはユーザにサービス満足しているかどうか聞いてみるかな