SREエンタープライズロードマップ - Google - Site Reliability Engineering

Google が過去に出版した 2 冊の書籍「Site Reliability Engineering」と「The Site Reliability Workbook」は、サービスライフサイクル全体への取り組みによって、組織がソフトウェアシステムの構築、展開、監視、保守を成功させる方法と理由を示しています。本レポートでは、Google Cloud Reliability Advocate の Steve McGhee と Google Cloud Solutions Architect の James Brookbank が、組織で SRE を導入する際にエンジニアが直面する特定の課題について深く掘り下げています。

SRE の普及にもかかわらず、多くの企業では SRE に対する当初の熱意と、その採用の度合いの間に大きな隔たりが生じています。本レポートは、プロダクトオーナーや信頼性の高いサービスに携わる方々が、SREの採用について知りたいときに、そのプロセスを体系的に説明するものです。

  • 既存の環境を評価し、期待値を設定することから始める
  • 信頼性に対する SRE のアプローチを検証し、なぜ信頼性が最も望まれる製品機能なのかを学ぶ
  • リスクの受容など、SRE の基本原則を既存の組織に当てはめる方法について学ぶ
  • チームメンバーができること、知っていること、使っているツールに基づき、チームのための SRE のプラクティスを開発する
  • SRE の成功を積極的に促進し、組織内で SRE を継続的に機能させるためのヒントを得る
PDF