「希望は悪い戦略だ。」 モスクワでの SRE 集中研修、3 月 5 ~ XNUMX 日

私たちはロシア初の SRE 実践コースを発表します。 スラームSRE.

集中講義では、映画チケットを販売するためのアグリゲーター Web サイトの構築、破壊、修復、改善に 3 日間を費やします。

「希望は悪い戦略だ。」 モスクワでの SRE 集中研修、3 月 5 ~ XNUMX 日

私たちがチケット アグリゲーターを選択した理由は、チケット アグリゲーターには多くの障害シナリオがあるためです。訪問者の殺到と DDoS 攻撃、多くの重要なマイクロサービス (認証、予約、支払い処理) の 1 つの障害、多くの映画館のうち 1 つの利用不能 (関連するデータ交換) などです。空席と予約)、リストのさらに下にあります。

アグリゲーター サイトの信頼性の概念を策定し、エンジニアリングでさらに開発し、SRE の観点から設計を分析し、メトリクスを選択し、そのモニタリングを設定し、新たなインシデントを排除し、インシデントに対するチーム作業のトレーニングを実施します。戦闘に近い状況では、報告会を開催します。

このプログラムは Booking.com と Google の従業員によって運営されています。
今回は遠隔からの参加はありません。コースは個人的な交流とチームワークに基づいて構築されています。

詳細はカットの下にあります

スピーカー

イワン・クルグロフ
Booking.com (オランダ) の主任開発者
2013 年に Booking.com に入社して以来、分散メッセージ配信と処理、ビッグデータと Web スタック、検索などのインフラストラクチャ プロジェクトに取り組んできました。
現在、社内クラウドとサービスメッシュの構築に取り組んでいます。

ベン・タイラー
Booking.com (米国) の主任開発者
Booking.comプラットフォームの社内開発に従事。
サービス メッシュ/サービス ディスカバリ、バッチ ジョブ スケジューリング、インシデント対応、事後分析プロセスを専門としています。
ロシア語で話し、教えています。

エフゲニー・ヴァラヴァ
Google (サンフランシスコ) の総合開発者。
高負荷の Web プロジェクトからコンピューター ビジョンやロボット工学の研究までの経験。
2011 年以来、Google で分散システムの作成と運用に携わり、概念化、設計とアーキテクチャ、立ち上げ、折りたたみ、およびすべての中間段階といったプロジェクトのライフサイクル全体に参加しています。

エドゥアルド・メドベージェフ
Tungsten Labs (ドイツ) CTO
StackStorm でエンジニアとして働き、プラットフォームの ChatOps 機能を担当しました。 データセンター自動化のための ChatOps を開発および実装しました。 ロシアおよび国際会議で講演。

プログラム

プログラムは積極的に開発中です。今はこんな感じですが、2月までには改善され拡大するかもしれません。

トピック #1: SRE の基本原則と手法

  • SREになるには何が必要ですか?
  • DevOps と SRE
  • 開発者が SRE を評価し、プロジェクトに参加しないと非常に悲しい理由
  • SLI、SLO、SLA
  • SRE におけるエラー バジェットとその役割

トピック #2: 分散システムの設計

  • アプリケーションのアーキテクチャと機能
  • 非抽象的な大規模システム設計
  • 操作性・故障対応設計
  • gRPC または REST
  • バージョン管理と下位互換性

トピック #3: SRE プロジェクトがどのように受け入れられるか

  • SRE のベスト プラクティス
  • プロジェクト承認チェックリスト
  • ロギング、メトリクス、トレース
  • CI/CD を自らの手で実現する

トピックNo.4: 分散システムの設計と立ち上げ

  • リバースエンジニアリング - システムはどのように機能するのか?
  • SLI と SLO に同意します
  • キャパシティプランニングを実践する
  • アプリケーションへのトラフィックを開始すると、ユーザーはアプリケーションを「使用」し始めます。
  • Prometheus、Grafana、Elastic の発売

トピック #5: モニタリング、可観測性、およびアラート

  • モニタリング vs.可観測性
  • Prometheus を使用したモニタリングとアラートの設定
  • SLIとSLOの実践的なモニタリング
  • 症状 vs.原因
  • ブラックボックス vs.ホワイトボックス監視
  • アプリケーションとサーバーの可用性の分散監視
  • 4つのゴールデンシグナル(異常検出)

トピックNo.6:システムの信頼性試験の実践

  • プレッシャーの下で働く
  • 失敗注入
  • カオスモンキー

トピック #7: インシデント対応の実践

  • ストレス管理アルゴリズム
  • 事件参加者間の交流
  • 事後分析
  • 知識共有
  • 文化を形作る
  • 障害監視
  • 責任のない報告会の実施

トピック #8: 負荷管理の実践

  • 負荷分散
  • アプリケーションのフォールト トレランス: 再試行、タイムアウト、障害挿入、サーキット ブレーカー
  • DDoS (負荷の作成) + カスケード障害

トピック #9: インシデント対応

  • 報告会
  • オンコール練習
  • 各種事故(テスト、設定変更、ハードウェア障害)
  • インシデント管理プロトコル

トピック #10: 診断と問題解決

  • ロギング
  • デバッグ
  • アプリケーションの分析とデバッグを実践する

トピック #11: システムの信頼性テスト

  • ストレステスト
  • 構成テスト
  • 性能試験
  • カナリアリリース

トピック No. 12: 自主的な作業とレビュー

参加者への推奨事項と要件

SRE はチームの取り組みです。チームでコースを受講することを強くお勧めします。そのため、既成のチームには大幅な割引を提供しています。

コース料金はお一人様60₽です。
企業が 5 人以上のグループを派遣する場合 - 40 ₽。

このコースは Kubernetes 上に構築されています。合格するには、Kubernetes を基本レベルで理解する必要があります。彼と協力しない場合は、Slurm Basic (онлайн または 集中 18 月 20 ~ XNUMX 日).
さらに、Linux に習熟し、Gitlab と Prometheus について知っている必要があります。

登録

たとえば、CEO、CTO、開発者チームにコースに来てもらい、経営部門を考慮したインターンシップを受けてもらいたいなど、参加に関する複雑なアイデアがある場合は、個人メッセージで私に書いてください。

出所: habr.com

コメントを追加します