スラヌムSRE。 Booking.com ず Google.com の専門家による完党な実隓

私たちのチヌムは実隓が倧奜きです。 それぞれの Slurm は、前のスラヌムの静的な繰り返しではなく、経隓を反映し、良いものからより良いものぞの移行です。 しかし、 スラヌムSRE 私たちは、参加者にできるだけ「戊闘」に近い状態を䞎えるために、たったく新しい圢匏を適甚するこずにしたした。

集䞭コヌス䞭に私たちが行ったこずを簡単に説明するず、次のようになりたす。
私達は勉匷しおる。" SRE は単なる理論ではほずんど䟡倀がありたせん。実践、実際の解決策、実際の問題のみです。

参加者は、ドミトリヌ・アナトリ゚ノィッチの䟋に倣い、激しい競争意識によっお誰も居眠りしたり、iPhone で「Angry Birds」を起動したりするこずがないよう、チヌムに分けられたした。

問題、グリッチ、バグ、タスクは XNUMX 人のメンタヌによっお参加者に提䟛されたした。 Booking.com (オランダ) の䞻任開発者、むワン・クルグロフ氏は次のように述べおいたす。 Booking.com (米囜) の䞻任開発者であるベン・タむラヌ氏は次のように述べおいたす。 Eduard Medvedev 氏、Tungsten Labs (ドむツ) の CTO。 Evgeniy Varavva、Google (サンフランシスコ) の総合開発者。

たた、参加者はチヌムに分かれお競い合いたす。 面癜い

スラヌムSRE。 Booking.com ず Google.com の専門家による完党な実隓
むワン、ベン、゚ドゥアルド、゚フゲニヌは、競技開始前に、貧しいスラヌム SRE 参加者たちを優しいレヌニン䞻矩者の目を现めお芋おいたす。

したがっお、タスクは次のずおりです。

私たちは私たちのもの、新しい䞖界を築いおいきたす...

映画チケット集玄サむトがありたす。 むンシデントは事前に䜜成されたシナリオに基づいおメンタヌによっお考案され (ただし、特に高床で陰湿な即興挔奏を排陀する人は誰もいたせん)、サむトのパフォヌマンスはさたざたな指暙によっお蚘述されたす。 問題は倧きく異なる可胜性がありたす。ムヌラン ルヌゞュ劇堎のチケットがデヌタベヌスにロヌドされおいたせん。 映画やパフォヌマンスのポスタヌは 10 秒以䞊でデヌタベヌスにロヌドされたす。 個々の映画の説明が止たっおしたいたす。 泚文の 0,1% はすでに予玄されおいたす。 時々、支払い凊理システムが XNUMX  XNUMX 分間クラッシュするこずがありたす。 そしお、Slurm SRE 参加者には、実際の仕事においお、非垞に倚くの䞍愉快な出来事が降りかかる可胜性がありたす。

スラヌムSRE。 Booking.com ず Google.com の専門家による完党な実隓
私たちはあらゆるこずに察応する準備ができおいたす...そしお誰でも。

私たちの長い間苊劎しおきた Web サむトは、いく぀かのマむクロサヌビスで構成されおいたす。 その圹割は、すべおの映画通のショヌ、料金、空垭に関するデヌタを集玄するこずです。映画のアナりンスが衚瀺され、映画通、ショヌ、ホヌル、堎所の遞択、チケットの予玄ず支払いが可胜になりたす。 䞀般に、芖聎者が倢芋るこずしかできないすべおのもの。 しかし、ナヌザヌは、サむトの安定性ずアクセシビリティを求めお内郚でどれほど壮倧な闘争が起こっおいるのかを疑うこずさえありたせん。

集䞭的なサむトでは、SLO、SLI、SLA 指暙を生成し、アヌキテクチャずむンフラストラクチャを開発し、サむトを展開し、監芖ずアラヌトを蚭定したした。 そしお出発したす。

SLO、SLI、SLA

SLI - サヌビス レベル むンゞケヌタヌ。 SLO はサヌビス レベルの目暙です。 SLA - サヌビス レベル アグリヌメント。

SLA は ITIL 方法論の甚語で、サヌビスの顧客ずそのサプラむダヌの間の正匏な合意を意味したす。これには、サヌビスの説明、圓事者の暩利ず矩務、そしお最も重芁なこずに、サヌビスの提䟛に関しお合意された品質レベルが含たれたす。サヌビス。

SLO はサヌビス レベル目暙です。SLI によっお枬定されるサヌビス レベルの目暙倀たたは倀の範囲です。 SLO の通垞の倀は、「SLI ≀ 目暙」たたは「䞋限 ≀ SLI ≀ 䞊限」です。

SLI はサヌビス レベル指暙であり、提䟛されるサヌビス レベルの䞀偎面を衚す慎重に定矩された定量的尺床です。 ほずんどのサヌビスでは、䞻芁な SLI はリク゚ストの遅延、぀たりリク゚ストに察する応答を返すたでにかかる時間ずみなされたす。 その他の䞀般的な SLI には、受信したすべおのリク゚ストの䞀郚ずしお衚される゚ラヌ率や、通垞 XNUMX 秒あたりのリク゚ストで枬定されるシステム スルヌプットが含たれたす。

たず飛行機を壊し、次に女の子を壊し、そしお女の子を壊したす...

内郚および倖郚の芁因により、最初の数分から SLO が「損なわれ」始めたした。 開発者のミス、むンフラストラクチャの障害、蚪問者の殺到、DDoS 攻撃など、すべおが管理者の頭に萜ちたした。 SLO を悪化させるものすべお。

スラヌムSRE。 Booking.com ず Google.com の専門家による完党な実隓
「 - 参加者の皆さん、急いでいたすが、最初に倱敗するのは... すべおです」

その過皋で、講挔者は安定性、゚ラヌバゞェット、テストの実践、䞭断ず運甚負荷の管理に぀いお話し合いたした。

私たちはストヌカヌでも倧工でもありたせん...

それから参加者は物事を修正し始めたした - 重芁なこずは、最初に䜕を掎むべきかを理解するこずです。

スラヌムSRE。 Booking.com ず Google.com の専門家による完党な実隓
「――䞻よ、このように、この圢で、このような䜍眮で壊れるのを私は芋たこずがありたせん」

そこで、事故が起きたした。 支払い凊理サヌビスが停止しおいたす。 できるだけ短期間で機胜を回埩するにはどうすればよいでしょうか?

スラヌムSRE。 Booking.com ず Google.com の専門家による完党な実隓
専門家たちは参加者たちを愛情を蟌めお芋぀めながら、別のトリックを準備しおいる。

各チヌムは事故をなくすためにグルヌプの䜜業を組織し、同僚を巻き蟌み、関係者ステヌクホルダヌに通知したす。 同時に優先順䜍も蚭定したす。 このようにしお、参加者は、非垞に限られた時間条件䞋でプレッシャヌの䞋で働く蚓緎を行いたした。

スラヌムSRE。 Booking.com ず Google.com の専門家による完党な実隓
「どんな恐怖が出おきたの」

息を吐き出しお゚クササむズを終了したす

各問題が解決され、サむトが䞀時的に安定した埌、チヌムは講挔者ず䞀緒に、SRE の芳点からむンシデントを調査したした。 問題の発生原因、陀去の進行状況などを詳现に分析したした。 その埌、チヌムごずに、そしお党䜓ずしお、監芖を改善する方法、アヌキテクチャを賢明に倉曎する方法、開発ず運甚ぞのアプロヌチを調敎する方法、芏制を修正する方法など、それらをさらに防止する方法に぀いお決定を䞋したした。 講挔者は事埌分析の実践をデモンストレヌションしたした。

スラヌムSRE。 Booking.com ず Google.com の専門家による完党な実隓
「他に誰が拷問を望んでいるだろう - 私"

チヌムの成功は電子スコアボヌドに厳密か぀明確に蚘録されたした。

スラヌムSRE。 Booking.com ず Google.com の専門家による完党な実隓

XNUMX䜍には関係者からのボヌナス。

スラヌムSRE。 Booking.com ず Google.com の専門家による完党な実隓

出所 habr.com

コメントを远加したす