りェビナヌ「SRE - hype or the future?」の文字起こし

りェビナヌの音声が貧匱なので、文字に起こしたした。

私の名前はメドベヌゞェフ・゚ドゥアルドです。 今日は、SRE ずは䜕か、SRE がどのように登堎したか、SRE ゚ンゞニアがどのような䜜業基準を持っおいるか、信頌性の基準に぀いお少し、そのモニタリングに぀いお少し話したす。 頂䞊を歩きたす。XNUMX 時間では倚くを語るこずはできたせんが、远加の怜蚎甚の資料を提䟛したす。皆さんのお越しをお埅ちしおいたす。 スラヌム SRE。 XNUMX月末にモスクワで。

たず、SRE ずは䜕か、぀たりサむト信頌性゚ンゞニアリングに぀いお説明したしょう。 そしお、それが別の立堎ずしお、別の方向ずしおどのように珟れたか。 すべおは、埓来の開発サヌクルでは、開発ず運甚が XNUMX ぀のたったく異なるチヌムであり、通垞は XNUMX ぀のたったく異なる目暙を持っおいるずいう事実から始たりたした。 開発チヌムの目暙は、新機胜を展開し、ビゞネスのニヌズを満たすこずです。 運甚チヌムの目暙は、すべおが機胜し、䜕も壊れおいないこずを確認するこずです。 明らかに、これらの目暙は互いに矛盟しおいたす。すべおが機胜し、䜕も壊さないようにするには、新機胜のロヌルアりトをできる限り少なくする必芁がありたす。 このため、珟圚 DevOps ず呌ばれおいる方法論が解決しようずしおいる内郚矛盟が数倚くありたす。

問題は、DevOps の明確な定矩ず DevOps の明確な実装がないこずです。 私は 2 幎前に゚カテリンブルクのカンファレンスで講挔したしたが、これたで DevOps セクションは「DevOps ずは䜕か」ずいうレポヌトから始たりたした。 2017 幎で、Devops は誕生しおからほが 10 幎になりたすが、それが䜕なのかに぀いおはただ議論が続いおいたす。 これは、Google が数幎前に解決しようずした非垞に奇劙な状況です。

2016 幎、Google は「サむト信頌性゚ンゞニアリング」ずいう曞籍を出版したした。 そしお実際、SRE 運動が始たったのはこの本でした。 SRE は、特定の䌁業における DevOps パラダむムの特定の実装です。 SRE ゚ンゞニアは、システムが確実に動䜜するように努めたす。 圌らはほずんどが開発者から来おおり、堎合によっおは開発に匷い経隓を持぀管理者から来おいたす。 そしお、圌らはシステム管理者がか぀お行っおいたこずを行いたすが、開発の経隓ずコヌドに関するシステムの知識が豊富なため、これらの人々は日垞的な管理䜜業には関心がなく、自動化に傟いおいるずいう事実に぀ながりたす。

SRE チヌムにおける DevOps パラダむムは、構造的な問題を解決する SRE ゚ンゞニアが存圚するずいう事実によっお実装されおいるこずがわかりたした。 これは、人々が 8 幎間話題にしおきたのず同じ、開発ず運甚の関係です。 SRE の圹割は、新人が SRE になるわけではないずいう点でアヌキテクトの圹割ず䌌おいたす。 キャリアの初期段階にある人は、ただ経隓がなく、必芁な幅広い知識を持っおいたせん。 なぜなら、SRE では、い぀、䜕が問題になる可胜性があるのか​​に぀いお、非垞に埮劙な知識が必芁だからです。 したがっお、ここでは原則ずしお瀟内ず瀟倖の䞡方である皋床の経隓が必芁です。

SRE ず Devops の違いに぀いお説明するかどうかを尋ねられたす。 圌女はたった今説明されたした。 組織における SRE の䜍眮に぀いおお話したしょう。 Ops がただ別の郚門であるこの叀兞的な DevOps アプロヌチずは異なり、SRE は開発チヌムの䞀郚です。 圌らは補品開発に携わっおいたす。 SRE の圹割をある開発者から別の開発者に匕き継ぐアプロヌチもありたす。 圌らは、たずえば UX デザむナヌ、開発者自身、堎合によっおはプロダクト マネヌゞャヌず同じようにコヌド レビュヌに参加したす。 SRE は同じレベルで機胜したす。 SRE が展開ごずに次のように蚀うように、それらを承認し、レビュヌする必芁がありたす。「わかりたした、この展開、この補品は信頌性に悪圱響を及がしたせん。 もしそうなら、それはある皋床の蚱容範囲内です。 これに぀いおもお話したす。

したがっお、SRE にはコヌドを倉曎する拒吊暩がありたす。 たた、䞀般に、SRE が正しく実装されおいない堎合、これによりある皮の小さな競合が発生したす。 サむト信頌性゚ンゞニアリングに関する同じ本の䞭で、これらの競合を回避する方法に぀いおは、XNUMX ぀ではなく倚くの郚分で説明されおいたす。

圌らは、SRE が情報セキュリティにどのように関係しおいるかを尋ねたす。 SRE は情報セキュリティに盎接関䞎しおいたせん。 基本的に、倧䌁業では、これは個人、テスタヌ、アナリストによっお行われたす。 ただし、セキュリティに圱響を䞎える䞀郚の操䜜、䞀郚のコミット、䞀郚のデプロむメントが補品の可甚性にも圱響を䞎える可胜性があるずいう意味で、SRE はそれらずも察話したす。 したがっお、SRE 党䜓ずしお、アナリストを含むセキュリティ チヌムを含むあらゆるチヌムず察話したす。 そのため、SREは䞻にDevOpsを導入する際に必芁ずなりたすが、同時に開発者の負担も倧きくなっおしたいたす。 ぀たり、開発チヌム自䜓が、運甚の責任も負わなければならないずいう事実にもはや察凊できなくなっおいたす。 そしお、別の圹割がありたす。 この圹割は予算で蚈画されおいたす。 この圹割はチヌムの芏暡に応じお定められるこずもあれば、別の人が珟れるこずもあれば、開発者の XNUMX 人がその圹割を果たすこずもありたす。 これが、最初の SRE がチヌムに登堎する方法です。

SRE の圱響を受けるシステムの耇雑さ、぀たり操䜜の信頌性に圱響を䞎える耇雑さは、必然的なものでもあり、偶然的なものでもありたす。 必芁な耇雑さずは、補品の耇雑さが、新しい補品機胜に必芁な範囲たで増加するこずです。 ランダムな耇雑さずは、システムの耇雑さが増加するものの、補品の機胜やビゞネス芁件がこれに盎接圱響しないこずです。 開発者がどこかで間違いを犯したか、アルゎリズムが最適ではないか、たたは特別な必芁なしに補品の耇雑さを増倧させる远加の関心事が導入されたかのいずれかであるこずがわかりたす。 優れた SRE は垞にこの状況を遮断する必芁がありたす。 ぀たり、ランダムな远加により難易床が䞊昇するコミット、デプロむメント、プル リク゚ストはブロックされる必芁がありたす。

問題は、なぜ豊富な知識を持぀゚ンゞニア、システム管理者をチヌムに採甚しないのかずいうこずです。 開発者が゚ンゞニアの圹割を果たすこずは、最良の人員配眮゜リュヌションではないず蚀われおいたす。 ゚ンゞニアの圹割を担う開発者が垞に最良の人員配眮゜リュヌションであるずは限りたせんが、ここで重芁なのは、運甚に携わる開発者は自動化に察する欲求がもう少しあり、自動化を実装するための知識ずスキルセットをもう少し持っおいるずいうこずです。この自動化。 したがっお、特定の操䜜やルヌチンの時間だけでなく、MTTR (平均埩旧時間、回埩時間) などの重芁なビゞネス パラメヌタヌも短瞮したす。 したがっお、これに぀いおは埌ほど説明したすが、組織のためにお金を節玄したす。

次に、SRE の運甚基準に぀いお説明したす。 そしおたず第䞀に信頌性に぀いおです。 䞭小䌁業や新興䌁業では、サヌビスがうたく曞かれおいれば、補品がうたく曞かれおいお、正しく曞かれおいれば機胜し、壊れるこずはないず考えられるこずがよくありたす。 それだけです。私たちは良いコヌドを曞いおいるので、壊すものは䜕もありたせん。 コヌドは非垞にシンプルで、壊す郚分は䜕もありたせん。 これらは、テストは必芁ないず蚀う人たちずほが同じです。なぜなら、これらは XNUMX ぀の VPI メ゜ッドであるのに、なぜここで䞭断する必芁があるからです。

もちろん、これはすべお間違っおいたす。 そしお、これらの人々は、実際にそのようなコヌドに噛たれお壊れおしたうこずがよくありたす。 物事は時々、最も予枬䞍可胜な方法で壊れたす。 時々人々は「いいえ、そんなこずは決しお起こらない」ず蚀いたす。 そしおそれは垞に起こりたす。 それは十分に頻繁に起こりたす。 100% の可甚性は決しお実珟しないため、誰も 100% の可甚性を目指しお努力するこずがないのはこのためです。 これが暙準です。 したがっお、サヌビスの可甚性に぀いお話すずきは、垞に 2 に぀いお話したす。 3 ナむン、4 ナむン、5 ナむン、5 ナむン。 これをダりンタむムに換算するず、たずえば 5 ナむンは幎間 2 分匷のダりンタむムずなり、3,5 ナむンは XNUMX 日のダりンタむムになりたす。

しかし、ある時点で POI、぀たり投資収益率が枛少するこずは明らかです。 ツヌナむンからスリヌナむンに移行するず、ダりンタむムが 3 日以䞊短瞮されるこずになりたす。 フォヌナむンズからファむブナむンに移行するず、ダりンタむムが幎間 47 分短瞮されたす。 そしお、ビゞネスにずっおそれは重芁ではない可胜性があるこずが刀明したした。 そしお䞀般に、必芁な信頌性は技術的な問題ではなく、たず第䞀にビゞネスの問題であり、補品の問題です。 補品のナヌザヌにずっお蚱容されるダりンタむムのレベル、ナヌザヌが䜕を期埅しおいるか、支払った金額、たずえば、ナヌザヌが倱う金額、システムが倱う金額。

ここで重芁な問題は、残りのコンポヌネントの信頌性がどのようなものかずいうこずです。 なぜなら、信頌性が 4 ナむンのスマヌトフォンでは、5 ナむンず 2 ナむンの差は芋えないからです。 倧たかに蚀っお、あなたのサヌビスでスマヌトフォンに幎間 10 回故障が発生した堎合、その 8 回は OS 偎で故障が発生しおいる可胜性が高くなりたす。 ナヌザヌはこれに慣れおおり、幎に XNUMX 回以䞊は気にしたせん。 信頌性の向䞊ず利益の増加の代償を盞関させる必芁がありたす。
SRE に関する本には、スリヌ ナむンから 4 ナむンに増加する良い䟋がありたす。 可甚性の増加は 3% 匱であるこずがわかりたす。 そしお、サヌビスの収益が幎間 0,1 䞇ドルであれば、収益の増加は 1 ドルになりたす。 手頃な䟡栌を 900 䞊げるのにかかるコストが幎間 900 ドル未満であれば、その倀䞊げは経枈的に合理的です。 幎間 900 ドルを超えるコストがかかる堎合、収益の増加が人件費や資源コストを補えないため、もはや意味がありたせん。 そしお、スリヌナむンで十分です。

もちろん、これはすべおのリク゚ストが等しい単玔化された䟋です。 スリヌ ナむンからフォヌ ナむンに移行するのは十分に簡単ですが、同時に、たずえば 3 ナむンから 4 に移行するず、すでに 2 ドルの節玄ずなり、経枈的に合理的です。 圓然のこずながら、実際には、登録リク゚ストの倱敗はペヌゞの衚瀺の倱敗よりも悪く、リク゚ストの重みは異なりたす。 ビゞネスの芳点からはたったく異なる基準があるかもしれたせんが、いずれにしおも、特定のサヌビスに぀いお話しおいない限り、原則ずしお、これはかなり信頌できる近䌌倀です。
サヌビスのアヌキテクチャ ゜リュヌションを遞択する際に、SRE がコヌディネヌタヌの XNUMX 人になるかどうかずいう質問を受けたした。 安定性が倱われないように、既存のむンフラストラクチャに統合するずいう芳点から考えおみたしょう。 はい、SRE は、プル リク゚スト、コミット、リリヌスず同じように、アヌキテクチャ、新しいサヌビス、マむクロサヌビスの導入、新しい゜リュヌションの実装に圱響を䞎えたす。 なぜ経隓が必芁である、資栌が必芁であるず前に蚀いたしたか。 実際、SRE は、あらゆるアヌキテクチャおよび゜フトりェア ゜リュヌションにおける阻害芁因の XNUMX ぀です。 したがっお、゚ンゞニアずしおの SRE は、たず、特定の決定が信頌性や安定性にどのような圱響を䞎えるかを理解するだけでなく、それがビゞネス ニヌズずどのように関係しおいるのか、どのような芳点からそれが蚱容され埗るのかを理解する必芁がありたす。そうではない。

したがっお、ここでは、SRE で䌝統的に SLA (サヌビス レベル アグリヌメント) ずしお定矩されおいる信頌性基準に぀いおのみ説明するこずができたす。 おそらくよく知られた甚語でしょう。 SLI (サヌビス レベル むンゞケヌタヌ)。 SLO (サヌビスレベル目暙)。 サヌビス レベル アグリヌメントは、特にネットワヌク、プロバむダヌ、ホスティングを扱ったこずがある人にずっおは、おそらく象城的な甚語です。 これは、サヌビス党䜓のパフォヌマンス、ペナルティ、゚ラヌに察する䞀郚のペナルティ、指暙、基準に぀いお説明する䞀般的な合意です。 そしお、SLI は可甚性の指暙そのものです。 ぀たり、SLI は、サヌビスからの応答時間、パヌセンテヌゞずしおの゚ラヌ数です。 ある皮のファむルホスティングの堎合は垯域幅である可胜性がありたす。 認識アルゎリズムに関しお蚀えば、指暙は、たずえば、答えの正しさであっおもよい。 SLO (Service Level Objective) は、それぞれ、SLI 指暙、その倀、期間の組み合わせです。

SLA が次のようになるずしたしょう。 このサヌビスは、幎間を通じお 99,95% の時間利甚可胜です。 たたは、99 件の重芁なサポヌト チケットが四半期ごずに 3 時間以内にクロヌズされたす。 たたは、ク゚リの 85% は毎月 1,5 秒以内に応答を受け取りたす。 ぀たり、゚ラヌや倱敗はごく普通のこずだずいうこずが埐々に理解できるようになるのです。 これは蚱容できる状況であり、私たちはそれを蚈画しおおり、ある皋床は期埅しおいたす。 ぀たり、SRE は間違いを犯す可胜性のあるシステムを構築し、゚ラヌに正垞に察応し、゚ラヌを考慮する必芁がありたす。 そしお、可胜な限り、ナヌザヌが気付かない、たたは気付いおいるような方法で゚ラヌを凊理する必芁がありたすが、すべおが完党に倱敗しないようにするための䜕らかの回避策がありたす。

たずえば、ビデオを YouTube にアップロヌドし、YouTube がすぐに倉換できない堎合、ビデオが倧きすぎる堎合、フォヌマットが最適でない堎合、圓然のこずながらリク゚ストはタむムアりトで倱敗せず、YouTube は 502 ゚ラヌを出したせん。 , YouTube は次のように蚀いたす。「すべおが䜜成されたした。ビデオは凊理䞭です。 10分ほどで出来䞊がりたす。」 これはグレヌスフル デグラデヌションの原則であり、これを行ったこずがある人なら、たずえばフロント゚ンド開発でよく知られおいたす。

次に説明する甚語は、信頌性、゚ラヌ、期埅を考慮しお䜜業するために非垞に重芁であり、MTBF ず MTTR です。 MTBF は、故障間の平均時間です。 MTTR 平均回埩時間、回埩たでの平均時間。 ぀たり、゚ラヌが発芋された瞬間から、゚ラヌが発生した瞬間からサヌビスが完党に通垞の動䜜に埩元されるたでの経過時間です。 MTBF は䞻にコヌドの品質に関する䜜業によっお修正されたす。 それは、SRE が「ノヌ」ず蚀えるずいう事実です。 そしお、SRE が「ノヌ」ず蚀うずき、圌は有害だから、悪いからそう蚀っおいるのではなく、そうしないず党員が苊しむからそう蚀っおいるのだずいうこずをチヌム党䜓が理解する必芁がありたす。

繰り返しになりたすが、他の開発者が SRE を嫌い始めないようにする方法に぀いおは、私が頻繁に参照しおいる本の䞭にさえ、たくさんの蚘事、たくさんの方法、たくさんの方法がありたす。 䞀方、MTTR は SLO (サヌビス レベル目暙) に取り組むこずを目的ずしおいたす。 そしおそれはほずんどが自動化です。 たずえば、圓瀟の SLO は四半期あたり 4 ナむンの皌働時間であるためです。 これは、3 か月以内に 13 分のダりンタむムを蚱容できるこずを意味したす。 そしお、MTTR は 13 分を超えるこずはできないこずがわかりたした。 13 分以内に少なくずも 1 回のダりンタむムに察応した堎合、その四半期の予算党䜓がすでに䜿い果たされおいるこずを意味したす。 SLO を砎っおいたす。 クラッシュに察応しお修正するのに 13 分ずいう時間は、機械にずっおは長いですが、人間にずっおは非垞に短いです。 なぜなら、人がアラヌトを受け取るたで、反応するたで、゚ラヌを理解するたで、すでに数分かかるからです。 人がそれを修正する方法、正確に䜕を修正するか、䜕をすべきかを理解するたで、さらに数分かかりたす。 実際、サヌバヌを再起動する必芁があるだけ、たたは新しいノヌドを立ち䞊げる必芁がある堎合でも、手動での MTTR はすでに玄 7  8 分です。 プロセスを自動化するず、MTTR は XNUMX 秒、堎合によっおはミリ秒に達するこずがよくありたす。 Google は通垞、ミリ秒に぀いお話したすが、実際には、もちろん、すべおがそれほど良いわけではありたせん。

理想的には、SRE はその䜜業をほが完党に自動化する必芁がありたす。これは、MTTR、そのメトリクス、サヌビス党䜓の SLO、そしおそれに応じおビゞネス利益に盎接圱響するからです。 時間を超えるず、SRE に問題があるかどうかを尋ねられたす。 幞いなこずに、誰も責めるこずはありたせん。 これはバルムレス事埌分析ず呌ばれる別の文化で、今日は説明したせんが、Slurm で分析したす。 これは非垞に興味深いトピックであり、たくさん話すこずができたす。 倧たかに蚀えば、四半期ごずに割り圓おられた時間を超過した堎合、少しず぀党員に責任があるこずになりたす。぀たり、党員を責めるこずは生産的ではありたせん。代わりに、おそらく誰も責めるのではなく、状況を修正しお、自分の持っおいるもので取り組みたしょう。 私の経隓では、このアプロヌチはほずんどのチヌム、特にロシアでは少し異質ですが、理にかなっおいお非垞にうたく機胜したす。 したがっお、蚘事の最埌に、このトピックに関しお読むこずができる文献をお勧めしたす。 たたは、Slurm SRE にお越しください。

説明したしょう。 四半期あたりの SLO 時間が超過した堎合、ダりンタむムが 13 分ではなく 15 分だった堎合、誰が責任を負えるでしょうか? もちろん、SRE が䜕らかの間違ったコミットたたはデプロむメントを行ったこずは明らかなので、SRE が原因である可胜性がありたす。 デヌタセンタヌの管理者は、䜕らかの予定倖のメンテナンスを実行した可胜性があるため、この責任がある可胜性がありたす。 デヌタセンタヌの管理者がこの責任があるのであれば、SLO を調敎するずきにメンテナンスを蚈算しなかった運甚郚門の担圓者も責任があるこずになりたす。 この原因は、デヌタ センタヌ契玄に眲名し、デヌタ センタヌの SLA が必芁なダりンタむムを考慮しお蚭蚈されおいないずいう事実に泚意を払わなかったマネヌゞャヌ、テクニカル ディレクタヌ、たたは誰かに責任がありたす。 したがっお、この状況では少しず぀すべおが責任がありたす。 そしおそれは、この状況では誰かを責めおも意味がないこずを意味したす。 しかし、もちろん修正する必芁がありたす。 だからこそ事埌分析があるのです。 そしお、たずえば、GitHub の事埌分析を読むず、これは垞に非垞に興味深い、小芏暡で予期せぬストヌリヌであり、それぞれのケヌスで、この特定の人物が原因であるずは誰も蚀っおいないず眮き換えるこずができたす。 非難の察象は垞に特定の䞍完党なプロセスにありたす。

次の質問に移りたしょう。 オヌトメヌション。 他の文脈で自動化に぀いお話すずき、私はよく、実際に節玄できる時間よりも自動化にかかる時間を取らずに、タスクの自動化に取り組むこずができる時間を瀺す衚を参照したす。 匕っ掛かりがありたす。 問題は、SRE がタスクを自動化するず、自動化が MTTR に盎接圱響するため、時間だけでなくコストも節玄できるずいうこずです。 いわば、枯枇するリ゜ヌスでもある埓業員や開発者の士気を節玄したす。 圌らはルヌチンを枛らしたす。 そしお、たずえ時間コストの芳点から自動化が意味をなさないように芋えおも、これらすべおが仕事、そしおその結果ずしおビゞネスにプラスの圱響を及がしたす。

実際、ほずんどの堎合そうなっおおり、SRE の圹割においお䜕かを自動化すべきではないケヌスはほずんどありたせん。 次に、いわゆる゚ラヌ バゞェット、぀たり゚ラヌのバゞェットに぀いお説明したす。 実際、自分で蚭定した SLO よりもすべおがはるかに優れおいる堎合、これもあたり良くないこずがわかりたす。 SLO は䞋限ずしおだけでなく、おおよその䞊限ずしおも機胜するため、これはかなり悪いこずです。 SLO の可甚性を 99% に蚭定し、実際に 99,99% になった堎合、ビゞネスにたったく悪圱響を及がさない実隓の䜙地があるこずがわかりたす。なぜなら、これは自分ですべおたずめお決定したものであり、実際にそうであるからです。このスペヌスは䜿甚したせん。 あなたにはミスに察する予算があり、あなたの堎合はそれが䜿い果たされおいたせん。

それをどうするか。 私たちは文字通りあらゆるものにそれを䜿甚したす。 運甚環境でのテスト、パフォヌマンスに圱響を䞎える可胜性のある新機胜の展開、リリヌス、メンテナンス、蚈画的なダりンタむムの堎合。 逆のルヌルも適甚されたす。予算が䜿い果たされた堎合、新しいものをリリヌスするこずはできたせん。そうしないず SLO を超えおしたうからです。 予算はすでに䜿い果たされおおり、䜕かをリリヌスしたしたが、それがパフォヌマンスに悪圱響を及がす堎合、぀たり、それ自䜓が SLO を盎接増加させる䜕らかの修正でない堎合は、予算を超えおおり、これは悪い状況です。分析、事埌分析、そしお堎合によっおはプロセスの修正が必芁です。

぀たり、サヌビス自䜓がうたく機胜せず、SLO が費やされ、予算が実隓やリリヌスではなく、サヌビス自䜓に費やされた堎合、興味深い修正ではなく、興味深い機胜ではなく、興味深いリリヌスの代わりに。 創造的な䜜業の代わりに、予算を元の状態に戻すための愚かな修正に察凊したり、SLO を線集したりする必芁がありたすが、これも頻繁に行うべきではないプロセスです。

したがっお、゚ラヌに察しおより倚くの予算がある状況では、SRE ず開発者の䞡方の誰もが関心を持っおいるこずがわかりたす。 開発者にずっお、バグに察する倚額の予算は、リリヌス、テスト、実隓に察凊できるこずを意味したす。 SRE にずっお、゚ラヌに察する予算が蚭定され、その予算を入力するこずは、盎接的に業務を適切に遂行しおいるこずを意味したす。 そしおこれは、ある皮の共同䜜業の動機に圱響を䞎えたす。 開発者ずしお SRE の意芋に耳を傟ければ、ルヌティンの䜜業が枛り、良い仕事をするためのスペヌスが増えるでしょう。

実皌働環境での実隓は非垞に重芁であり、倧芏暡なチヌムでは SRE にほが䞍可欠な郚分であるこずがわかりたした。 これは通垞、カオス ゚ンゞニアリングず呌ばれたす。これは、Chaos Monkey ず呌ばれるナヌティリティをリリヌスした Netflix のチヌムに由来しおいたす。
Chaos Monkey は CI/CD パむプラむンに接続し、運甚環境のサヌバヌをランダムにクラッシュさせたす。 繰り返したすが、SRE の構造では、ダりンしたサヌバヌ自䜓が悪いのではなく、それは予期されおいるずいう事実に぀いお話しおいたす。 予算内であれば蚱容され、ビゞネスに悪圱響を䞎えるこずはありたせん。 もちろん、Netflix には十分な冗長サヌバヌず十分なレプリケヌションがあるため、これらすべおを修正でき、ナヌザヌ党䜓が気付かないほどであり、さらに、予算に応じお XNUMX 台のサヌバヌを残す人はいたせん。

Netflix はしばらくの間、このようなナヌティリティのスむヌト党䜓を提䟛しおいたしたが、その XNUMX ぀である Chaos Gorilla は Amazon のアベむラビリティヌゟヌンの XNUMX ぀を完党にシャットダりンしたす。 そしお、そのようなものは、䜕が䜕に圱響を䞎え、䜕が䜕に䟝存するかが完党には明らかでない堎合に、たず隠れた䟝存関係を明らかにするのに圹立ちたす。 これは、マむクロサヌビスを䜿甚しおいお、ドキュメントが完党ではない堎合には、よく知られおいるかもしれたせん。 たた、これは、ステヌゞングでは捕捉できないコヌド内の゚ラヌを捕捉するのに非垞に圹立ちたす。負荷スケヌルが異なる、負荷パタヌンが異なる、機噚が異なるずいう事実により、ステヌゞングは​​厳密には正確なシミュレヌションではないからです。たた、おそらく他のものもありたす。 ピヌク負荷は予期せぬ、予枬䞍可胜な堎合もありたす。 そしお、このようなテストは、やはり予算を超えないものですが、ステヌゞング、自動テスト、CI / CD パむプラむンでは決しお怜出できないむンフラストラクチャ内の゚ラヌを怜出するのに非垞に圹立ちたす。 そしお、それがすべお予算に含たれおいる限り、サヌビスがそこでダりンしたこずは問題ではありたせん。非垞に恐ろしいように思えるかもしれたせんが、サヌバヌがダりンしたのは䜕ずいう悪倢でしょう。 いいえ、それは正垞です、それは良いこずです、それは虫を捕たえるのに圹立ちたす。 予算があれば、それを䜿うこずができたす。

Q: どのような文献をお勧めできたすか? 最埌にリストを蚘茉したす。 文献はたくさんありたすので、いく぀かのレポヌトを玹介したす。 SRE はどのように機胜するのでしょうか。たた、独自の゜フトりェア補品を持たない䌁業や開発が最小限の䌁業でも SRE は機胜したすか。 たずえば、䞻な掻動が゜フトりェアではない䌁業の堎合です。 䞻な掻動が゜フトりェアではない䌁業では、SRE は他の堎所ずたったく同じように機胜したす。䌁業では、開発されおいない堎合でも゜フトりェア補品も䜿甚する必芁があり、曎新をロヌルアりトする必芁があり、倉曎する必芁があるためです。むンフラストラクチャは成長する必芁があり、拡匵する必芁がありたす。 そしお、SRE は、これらのプロセスで起こり埗る問題を特定しお予枬し、ある皋床の成長が始たりビゞネス ニヌズが倉化した埌にそれらを制埡するのに圹立ちたす。 少なくずも数台のサヌバヌがあり、少なくずもある皋床の成長が芋蟌たれる堎合には、SRE を導入するために゜フトりェア開発に関䞎する必芁はたったくありたせん。

倧䌁業には実隓するための予算ずスペヌスがあるため、小芏暡なプロゞェクトや小芏暡な組織にも同じこずが圓おはたりたす。 しかし同時に、これらの実隓の成果はすべおどこでも䜿甚できたす。぀たり、SRE は、もちろん Google、Netflix、Dropbox にも登堎したした。 しかし同時に、䞭小䌁業や新興䌁業はすでに凝瞮された資料を読んだり、本を読んだり、レポヌトを芋たりするこずができたす。 圌らはそれに぀いおより頻繁に聞くようになり、具䜓的な䟋を芋お、私はそれが倧䞈倫だず思いたす、それは本圓に圹立぀可胜性がありたす、これは私たちにも必芁です、それは玠晎らしいです。

぀たり、これらのプロセスを暙準化するための䞻芁な䜜業はすべおすでに行われおいたす。 あなたの䌚瀟における SRE の圹割を具䜓的に決定し、これらすべおのプラクティスを実際に実装し始めるのはあなた自身です。これらのプラクティスに぀いおは、すでに説明したした。 ぀たり、䞭小䌁業にずっお有益な原則から、これは垞に SLA、SLI、SLO の定矩になりたす。 ゜フトりェアに関䞎しおいない堎合、これらは内郚 SLA ず内郚 SLO、぀たり゚ラヌに察する内郚予算になりたす。 これはほずんどの堎合、チヌム内やビゞネス内で興味深い議論に぀ながりたす。むンフラストラクチャや、ある皮の理想的なプロセスの組織、理想的なパむプラむンに必芁以䞊の費甚がかかるこずが刀明する可胜性があるためです。 IT 郚門にあるこれらの 4 ぀のナむンは、珟圚は実際には必芁ありたせん。 しかし同時に、時間を費やし、ミスのために予算を他のこずに費やすこずもできたす。

したがっお、監芖ず監芖の組織化は、どのような芏暡の䌁業にずっおも有益です。 そしお䞀般的に、間違いは蚱容され、予算があり、目暙がある堎合、この考え方は、3 人のスタヌトアップから始めお、あらゆる芏暡の䌚瀟にずっおも圹立ちたす。

技術的なニュアンスに぀いお最埌に説明するのは、モニタリングです。 SLA、SLI、SLO に぀いお話しおいる堎合、予算内に収たっおいるかどうか、目暙を遵守しおいるかどうか、最終的な SLA にどのような圱響を䞎えるかを監芖するこずなしには理解できないからです。 私は、監芖が次のように行われるのを䜕床も芋おきたした。たずえば、サヌバヌぞのリク゚ストの時間、平均時間、デヌタベヌスぞのリク゚ストの数など、䜕らかの倀がありたす。 圌にぱンゞニアが決めた基準がある。 メトリクスが暙準から逞脱するず、電子メヌルが届きたす。 原則ずしお、これはすべおたったく圹に立ちたせん。たず、人が毎回アラヌトを解釈する必芁がある堎合、぀たり、メトリクスの倀が意味するかどうかを刀断する必芁がある堎合、倧量のアラヌトや監芖からの倧量のメッセヌゞが発生するためです。䜕らかの行動が必芁だずいうこず。 そしお第二に、基本的に䜕もアクションを必芁ずしない堎合、圌はこれらすべおのアラヌトに気付かなくなるだけです。 これは優れた監芖ルヌルであり、SRE を実装する際の最初のルヌルは、通知はアクションが必芁な堎合にのみ送信されるべきであるずいうこずです。

暙準的なケヌスでは、むベントには 3 ぀のレベルがありたす。 アラヌト、チケット、ログがありたす。 アラヌトは、すぐに行動を起こす必芁があるものです。 ぀たり、すべおが壊れおいるので、今すぐ修正する必芁がありたす。 チケットは遅延したアクションが必芁なものです。 はい、䜕かをする必芁がありたす。手動で䜕かをする必芁がありたす。自動化は倱敗したしたが、次の数分間はそれを行う必芁はありたせん。 ログずはアクションを必芁ずしないものであり、通垞、物事がうたくいけば誰もそれを読むこずはありたせん。 ログを読む必芁があるのは、振り返っおみるず、しばらくの間、私たちが気づかなかった䜕かが壊れおいたこずが刀明した堎合だけです。 それずも、いく぀かの調査を行う必芁がありたすか。 ただし、䞀般に、アクションを必芁ずしないものはすべおログに蚘録されたす。

これらすべおの副䜜甚ずしお、アクションが必芁なむベントを定矩し、それらのアクションがどのようなものであるべきかを十分に説明できた堎合、これはアクションを自動化できるこずを意味したす。 ぀たり、䜕が起こるかずいうこずです。 譊戒から出発したす。 行動に移しおみたしょう。 このアクションの説明に進みたす。 そしお、自動化に移りたす。 ぀たり、あらゆる自動化はむベントぞの反応から始たりたす。

監芖から、可芳枬性ず呌ばれる甚語に移りたす。 ここ数幎、この蚀葉に぀いおちょっずした誇倧宣䌝も行われおきたした。 そしお、文脈を無芖しおその意味を理解する人はほずんどいたせん。 しかし重芁な点は、可芳枬性はシステムの透明性の指暙であるずいうこずです。 䜕か問題が発生した堎合、正確に䜕が問題だったか、たたその時点でシステムがどのような状態であったかをどれだけ早く刀断できるか。 コヌドに関しお蚀えば、どの関数が倱敗したか、どのサヌビスが倱敗したか。 たずえば、内郚倉数や蚭定の状態はどうなっおいたしたか。 むンフラストラクチャの芳点からは、障害が発生した可甚性ゟヌンず、Kubernetes がある堎合は、障害が発生したポッドずポッドの状態が瀺されたす。 したがっお、可芳枬性は MTTR ず盎接の関係がありたす。 サヌビスの可芳枬性が高いほど、゚ラヌの特定が容易になり、゚ラヌの修正が容易になり、゚ラヌの自動化が容易になり、MTTR が䜎くなりたす。

再び䞭小䌁業の話に戻りたすが、チヌムの芏暡にどう察凊するか、小芏暡なチヌムには別の SRE を雇う必芁があるのか​​、ずいう疑問は今でもよく聞かれたす。 これに぀いおは少し前にすでに話したした。 スタヌトアップやチヌムなどの開発の最初の段階では、SRE を暫定的な圹割にするこずができるため、これはたったく必芁ありたせん。 そしお、少なくずもある皋床の倚様性があるので、これによりチヌムが少し掻性化されたす。 さらに、成長に䌎い、䞀般に SRE の責任が非垞に倧きく倉化するずいう事実に人々が備えるこずができたす。 人を雇う堎合、圓然、その人はある皋床の期埅を持っおいたす。 そしお、これらの期埅は時間が経っおも倉わりたせんが、芁件は倧きく倉化したす。 したがっお、SRE をどのように雇甚するかは、初期段階では非垞に困難です。 自分で栜培する方がはるかに簡単です。 しかし、考えおみる䟡倀はありたす。

おそらく唯䞀の䟋倖は、非垞に厳栌で明確に定矩された成長芁件がある堎合です。 ぀たり、スタヌトアップの堎合、これは投資家からの䜕らかの圧力、䞀床に数倍の成長を予枬する䜕らかの圧力である可胜性がありたす。 その堎合、SRE を雇甚するこずは、正圓化できるため、基本的に正圓化されたす。 私たちには成長のための芁件が​​あり、そのような成長によっお䜕も壊れないずいう事実に責任を負う人材が必芁です。

もう䞀぀質問です。 開発者がテストに合栌した機胜を䜕床もカットしたが、本番環境が䞭断され、ベヌスがロヌドされ、他の機胜が䞭断された堎合に䜕をすべきか、どのようなプロセスを実装するか。 したがっお、この堎合、導入されるのぱラヌに察する予算です。 たた、䞀郚のサヌビス、䞀郚の機胜はすでに本番環境でテストされおいたす。 少数のナヌザヌのみが、すでに実皌働環境にある機胜がデプロむされおいる堎合は、カナリアになる可胜性がありたすが、たずえば、すべおのナヌザヌの XNUMX パヌセントで䜕かが壊れおも、ただ芁件を満たすこずが期埅されおいたす。゚ラヌに察する予算。 したがっお、はい、゚ラヌが発生し、䞀郚のナヌザヌにずっおはすべおが壊れたすが、これは正垞であるずすでに述べたした。

SREツヌルに぀いおの質問がありたした。 ぀たり、SRE が䜿甚するもので、他の人は䜿甚しないものは䜕かあるでしょうか。 実際、高床に専門化されたナヌティリティがいく぀かあり、たずえば、負荷をシミュレヌトしたり、カナリア A/B テストに埓事したりするある皮の゜フトりェアがありたす。 ただし、基本的に SRE ツヌルキットは開発者がすでに䜿甚しおいるものです。 SRE は開発チヌムず盎接察話するためです。 たた、異なるツヌルを䜿甚しおいる堎合、同期に時間がかかるこずがわかりたす。 特に、SRE が倧芏暡なチヌムで䜜業しおいる堎合、耇数のチヌムが存圚する倧䌁業では、党瀟的な暙準化が非垞に圹立ちたす。50 のチヌムで 50 の異なるナヌティリティが䜿甚されおいる堎合、SRE はそれらのナヌティリティを把握しおいる必芁があるためです。党お。 そしおもちろん、そんなこずは決しお起こらない。 そしお、少なくずも䞀郚のチヌムの仕事の質、管理の質は倧幅に䜎䞋するでしょう。

りェビナヌが終わりに近づいおいたす。 いく぀かの基本的なこずを䌝えるこずができたした。 もちろん、SRE に぀いおは XNUMX 時間で語ったり理解したりできるものではありたせん。 しかし、この考え方、䞻芁なポむントは䌝えるこずができたず思いたす。 そしお、興味があれば、そのトピックを掘り䞋げ、自分で孊び、他の人や他の䌚瀟でそれがどのように実装されおいるかを芋るこずができたす。 したがっお、XNUMX 月初旬に Slurm SRE たでお越しください。

Slurm SRE は XNUMX 日間の集䞭コヌスで、私が今話しおいるこずに぀いお話したすが、より深く、実際のケヌスを䜿甚し、実践を䌎うため、集䞭コヌス党䜓が実践的な䜜業を目的ずしおいたす。 人々はチヌムに分かれたす。 皆さんは実際のケヌスに取り組むこずになりたす。 したがっお、Booking.comのむンストラクタヌであるIvan KruglovずBen Tylerがいたす。 サンフランシスコ出身の Google 出身の玠晎らしい Eugene Barabbas が来おいたす。 そしお、私もあなたに䜕か蚀いたす。 ぜひご来店ください。
それで、参考文献。 SREに関する参考文献がありたす。 最初の 同じ本、ずいうより Google が曞いた SRE に関する 2 冊の本に぀いおです。 もう䞀぀ SLA、SLI、SLO に関する小さな蚘事ここでは、甚語ずその適甚に぀いおもう少し詳しく説明したす。 次の 3 ぀は、さたざたな䌁業の SRE に関するレポヌトです。 初め - SRE の鍵、これはGoogleのBen Trainerによる基調講挔です。 XNUMX番 - Dropbox の SRE。 XNUMX぀目はたた SRE から Google ぞ。 からの第XNUMXå ± Netflix の SRE、5 か囜に䞻芁な SRE 埓業員は 190 人しかいたせん。 これらすべおを芋るのは非垞に興味深いこずです。DevOps が異なる䌁業、さらには異なるチヌムにずっお意味するものが倧きく異なるのず同じように、SRE は、たずえ同じ芏暡の䌁業であっおも、非垞に異なる責任を負っおいるからです。

カオス ゚ンゞニアリングの原理に関するリンクがさらに 2 ぀ありたす。 (1), (2)。 最埌に、「玠晎らしいリスト」シリヌズからの 3 ぀のリストがありたす。 カオス゚ンゞニアリングに぀いお SRE 箄 SRE ツヌルキット。 SRE のリストは信じられないほど膚倧です。すべおに目を通す必芁はありたせん。玄 200 の蚘事がありたす。 キャパシティ プランニングず責任のない事埌分析に関する蚘事を匷くお勧めしたす。

興味深い蚘事 人生の遞択肢ずしおの SRE

い぀も聞いおいただきありがずうございたす。 䜕かを孊んだこずを願っおいたす。 さらに孊ぶために十分な資料が手元にあるこずを願っおいたす。 それではたた。 できればXNUMX月に。
りェビナヌぱドゥアルド・メドベヌゞェフ氏が䞻催したした。

PS: 読曞が奜きな人のために、Eduard が参考文献のリストを提䟛したした。 実際に理解したい方は倧歓迎です スラヌム SRE.

出所 habr.com

コメントを远加したす