よく会う方々にSREなどに興味があるように見られているみたいなので、思い出してみようと思ったので。
目次は以下。
- 第I部 SRE 入門
- 1章 はじめに
- 2章 SRE の心構え
- 3章 SRE の文化
- 4章 SRE について語る(SRE の提唱)
- 第II部 個人がSRE をはじめるには
- 5章 SRE になるための準備
- 6章 ⋯からSRE になる
- 7章 SRE として採用されるためのヒント
- 8章 SRE のある一日
- 9章 トイルとの関係を築く
- 10章 失敗から学習する
- 第Ⅲ部 組織がSRE をはじめるには
- 11章 成功のための組織的要因
- 12章 SRE はいかにして失敗するか
- 13章 ビジネス支店からのSRE
- 14章 Dickerson の信頼性の階層構造(良い出発点)
- 15章 SRE を組織に組み込む
- 16章 SRE 組織の進化段階
- 17章 組織におけるSRE の成長
- 18章 おわりに
- 付録A 若きSRE への手紙(リケルさんすみません)
- 付録B 元SRE からのアドバイス
- 付録C SRE 関連資料
最近システムについて考えることが増えてきた。その際に自分が大事に考えることの中で増えたなと思うのがセキュリティとシステムの可用性であるなと思うことが増えた。ただ、このあたりについては教わっているわけでもないしなにか勉強するのに良いのがないかなと思っていた時に本屋で本書を見かけた。
そうか、信頼性かと思ったので読んでみたけどとてもおもしろかった。
覚えておかないとな思ったのは、2章のSRE の心構えの中で失敗やエラーは敵ではなく学ぶ機会という言葉。失敗やエラーが起きることはとても嫌なことだし悪いことだと思うことが多いが、これはシステムについて教えてくれるチャンスなのだということでなるほどなと思った。
失敗を恐れず、そこから学び、改善につなげるフィードバックループを確立することも重要と説明されている。失敗をすることを恐れない文化の作り方や、失敗と気がつくための監視/オブザーバビリティについての考え方、改善するための振り返りについてなど勉強をしなければと思うことばかりだった。
また、レジリエンス工学についての説明が多くされている。レジリエンス工学の考え方は、「障害は完全に防げない」という前提を受け入れた上で、どうやって迅速に対応し、システムを回復させるかに重点をおくこと。
失敗することが当たり前だとすると最低限の動きができる状態であること、すぐにエラーから復帰することが大事なんだろうなということを思った。この辺りについてはそうだろうなと思いつつもちゃんと調べたことなどないので本などを読んでみたいなと思った。
まとめ
- SREについて、基本から役割、スケールの方法、なりかたについてなど幅広い内容で面白い
- 運用ばっかりではなく、システム管理者からSRE への行動をしてみよう
- レジリエンス工学の本を読んでみたい







