@hihihiroroのLog

ダラダラと。本ブログは、個人の意見であり、所属会社とは関係がありません。

「SLO サービスレベル目標」を読んだ

社内システムを扱っているのだが、自分たちのシステムでSLO を決めたほうが良いのではと言われることが多いのだけど、どう決めて良いかなどわからないので読もうと思った。

第Ⅰ部 SLO の開発
 1章 信頼性スタック
 2章 信頼性についての考え方
 3章 意味のあるサービスレベル指標の開発
 4章 適切なサービスレベル目標の選択
 5章 エラーバジェットの使い方
第Ⅱ部 SLO の実装
 6章 同意の獲得
 7章 SLI とSLO の計測
 8章 SLO の監視とアラート
 9章 SLI とSLO の確率と統計
 10章 信頼性を得るためのアーキテクチャ
 11章 データの信頼性
 12章 適切に機能した例
第Ⅲ部 SLO の文化
 13章 SLO 文化の構築
 14章 SLO の進化
 15章 発見可能で理解可能なSLO
 16章 SLO の提唱
 17章 信頼性のレポート

序文に良いことが書いてあった。きっとこれが全てなのだろう。

信頼性は会話です。
p.ⅶ

本書では概念の説明から始まり、実装についてや、実際に導入している会社の説明などもあった。また、背景となる統計や確率の基礎知識も説明されている上に、運用を根付かせるための方法や組織への浸透の仕方について幅広く書かれていた。考えなきゃいけないことが多いなとか偉い人をいっぱい巻き込んでいかないとなと思った。

読んだところSLO が高かったとしても、使用ユーザがその高さでも問題があるというならばそれは適度なSLO では無いということになるのだろうな。
ユーザーがシステムに期待する品質についてで考えてしかいなかったけれども、システム運用を行う上で妥協をする場所を決めるということでも使えることは面白い考えだった。ただ、自分たちが妥協をするために低くするとユーザに使われなくなってしまう。その丁度良い目標値を決めるための考え方がいくつも書かれていた。
SLO はSLA と違い契約ではないので何回も見直して、適切値にしていくことが大切らしい。一度決めたあとに変更をすることなんて考えてなかったのでそうなのかと思った。
エラーバジェットやバーンレートなどいろいろな考え方もあったがすべてが自分たちのサービスが使用してくれているユーザが満足できているかどうかで考えていくことが大事なのだと思った。

まとめ

  • 理解しきってないので再度読み直してみよ
  • オブザーバビリティを読んでも思ったけどSRE 本を再度読んでみたいと思った
  • まずはユーザにサービス満足しているかどうか聞いてみるかな