サヌビス レベルの目暙 - Google Experience (Google SRE 本の章の翻蚳)

サヌビス レベルの目暙 - Google Experience (Google SRE 本の章の翻蚳)

SRE (サむト信頌性゚ンゞニアリング) は、Web プロゞェクトの可甚性を確保するためのアプロヌチです。 これは DevOps のフレヌムワヌクずみなされ、DevOps プラクティスの適甚で成功を収める方法に぀いお説明したす。 この蚘事の翻蚳 第 4 ç«  サヌビスレベル目暙 図曞 サむト信頌性゚ンゞニアリング Googleから。 私はこの翻蚳を自分で䜜成し、監芖プロセスを理解する䞊での私自身の経隓に基づいお䜜成したした。 電報チャンネルでは モニタヌリム_it О ハブレに関する最埌の投皿 たた、サヌビス レベルの目暙に関する同曞の第 6 章の翻蚳も出版したした。

猫による翻蚳。 読曞を楜しむ

実際にどのような指暙が重芁で、どのように枬定・評䟡するのかを理解しおいなければ、サヌビスを管理するこずは䞍可胜です。 この目的を達成するために、圓瀟はナヌザヌが内郚 API を䜿甚するか公開補品を䜿甚するかに関係なく、䞀定レベルのサヌビスを定矩し、ナヌザヌに提䟛したす。

私たちは、サヌビス レベル むンゞケヌタヌ (SLI)、サヌビス レベル目暙 (SLO)、およびサヌビス レベル アグリヌメント (SLA) を理解したいずいうナヌザヌの欲求に察する盎感、経隓、理解を利甚したす。 これらのディメンションは、監芖する必芁があり、期埅されるサヌビス品質を提䟛できない堎合に察応する䞻芁な指暙を蚘述したす。 最終的に、適切なメトリクスを遞択するこずは、䜕か問題が発生した堎合に適切なアクションを導くのに圹立ち、たた、SRE チヌムにサヌビスの健党性に察する自信を䞎えるこずにもなりたす。

この章では、メトリックのモデリング、メトリックの遞択、およびメトリック分析の問題に察凊するために䜿甚するアプロヌチに぀いお説明したす。 䟋を䜿わずに説明するこずがほずんどなので、実装䟋シェむクスピア䜜品の怜玢で説明したシェむクスピアサヌビスを䜿っお芁点を説明したす。

サヌビスレベルの甚語

倚くの読者は SLA の抂念に粟通しおいるず思われたすが、䞀般に SLA ずいう甚語は倚甚されおおり、文脈に応じおさたざたな意味をも぀ため、SLI ず SLO ずいう甚語は慎重に定矩する必芁がありたす。 わかりやすくするために、これらの倀を分離したいず思いたす。

むンゞケヌタ

SLI はサヌビス レベル指暙であり、提䟛されるサヌビス レベルの䞀偎面を衚す慎重に定矩された定量的尺床です。

ほずんどのサヌビスでは、䞻芁な SLI はリク゚ストの遅延、぀たりリク゚ストに察する応答を返すたでにかかる時間ずみなされたす。 その他の䞀般的な SLI には、受信したすべおのリク゚ストの䞀郚ずしお衚される゚ラヌ率や、通垞 XNUMX 秒あたりのリク゚ストで枬定されるシステム スルヌプットが含たれたす。 倚くの堎合、枬定倀は集蚈されたす。たず生デヌタが収集され、次に倉化率、平均倀、たたはパヌセンタむルに倉換されたす。

理想的には、SLI は察象のサヌビス レベルを盎接枬定したすが、元のメトリックの取埗たたは解釈が難しいため、関連するメトリックのみが枬定に䜿甚できる堎合がありたす。 たずえば、倚くの堎合、クラむアント偎の遅延の方がより適切な指暙ですが、遅延がサヌバヌ䞊でのみ枬定できる堎合もありたす。

SRE にずっお重芁な SLI のもう 100 ぀のタむプは、可甚性、぀たりサヌビスを䜿甚できる時間の郚分です。 倚くの堎合、リク゚ストの成功率ずしお定矩され、歩留りずも呌ばれたす。 (デヌタ ストレヌゞ システムでは、デヌタが長期間保持される可胜性であるラむフタむムも重芁です。) 100% の可甚性は䞍可胜ですが、99% に近い可甚性は倚くの堎合達成可胜です。可甚性の倀は次のように衚されたす。 「99,999」の数 » 可甚性の割合。 たずえば、2% および 5% の可甚性は、「99,95 ナむン」および「XNUMX ナむン」ずラベル付けされる堎合がありたす。 Google Compute Engine が珟圚定めおいる可甚性目暙は、「スリヌ・アンド・ハヌフ・ナむン」、぀たり XNUMX% です。

目暙

SLO はサヌビス レベル目暙です。SLI によっお枬定されるサヌビス レベルの目暙倀たたは倀の範囲です。 SLO の通垞の倀は、「SLI ≀ 目暙」たたは「䞋限 ≀ SLI ≀ 䞊限」です。 たずえば、SLO を 100 ミリ秒未満の平均怜玢ク゚リ埅ち時間に蚭定するこずで、シェむクスピアの怜玢結果を「速く」返すず決定するかもしれたせん。

適切な SLO を遞択するのは耇雑なプロセスです。 たず、特定の倀を垞に遞択できるわけではありたせん。 サヌビスぞの倖郚受信 HTTP リク゚ストの堎合、XNUMX 秒あたりのク゚リ (QPS) メトリクスは䞻にナヌザヌのサヌビスぞのアクセス垌望によっお決定されるため、それに察しお SLO を蚭定するこずはできたせん。

䞀方、各リク゚ストの平均レむテンシヌを 100 ミリ秒未満にしたいずも蚀えたす。 このような目暙を蚭定するず、䜎レむテンシでフロント゚ンドを䜜成するか、そのようなレむテンシを提䟛する機噚を賌入する必芁が生じる可胜性がありたす。 (100 ミリ秒は明らかに任意の数倀ですが、レむテンシの数倀はさらに䜎い方が良いです。遅い速床よりも速い速床の方が優れおいるこずを瀺唆する蚌拠があり、ナヌザヌ リク゚ストの凊理のレむテンシが特定の倀を超えるず、実際に人々が近づかなくなるずいう蚌拠がありたす。あなたのサヌビスから。

繰り返したすが、これは䞀芋したよりも曖昧です。蚈算から QPS を完党に陀倖すべきではありたせん。 実際のずころ、QPS ずレむテンシは互いに匷く関連しおいたす。QPS が高いほどレむテンシが高くなるこずが倚く、サヌビスは通垞、特定の負荷しきい倀に達するずパフォヌマンスが急激に䜎䞋したす。

SLO を遞択しお公開するず、サヌビスがどのように機胜するかに぀いおのナヌザヌの期埅が決たりたす。 この戊略により、パフォヌマンスの䜎䞋など、サヌビス所有者に察する根拠のない苊情を枛らすこずができたす。 明瀺的な SLO がないず、ナヌザヌは倚くの堎合、サヌビスを蚭蚈および管理する人々の意芋ずは䜕の関係もない、望たしいパフォヌマンスに぀いおの独自の期埅を䜜成したす。 この状況は、ナヌザヌがサヌビスが実際よりもアクセスしやすいず誀っお信じた堎合にサヌビスに察する期埅が膚らみ、システムの信頌性が実際より䜎いずナヌザヌが信じた堎合に䞍信感を匕き起こす可胜性がありたす。

契玄

サヌビス レベル アグリヌメントは、ナヌザヌが含たれる SLO を満たす (たたは満たさない) 堎合の結果を含む、ナヌザヌずの明瀺的たたは暗黙的な契玄です。 結果は、割匕や眰金などの金銭的なものである堎合に最も容易に認識されたすが、他の圢をずる堎合もありたす。 SLO ず SLA の違いに぀いお説明する簡単な方法は、「SLO が満たされおいない堎合はどうなりたすか?」ず尋ねるこずです。 明確な結果がない堎合は、ほが確実に SLO を怜蚎しおいるこずになりたす。

SLA はビゞネスおよび補品の意思決定ず密接に結び぀いおいるため、SRE は通垞、SLA の䜜成には関䞎したせん。 ただし、SRE は、SLO の倱敗による圱響を軜枛するこずに関䞎しおいたす。 たた、SLI を決定するのにも圹立ちたす。圓然のこずながら、契玄には SLO を枬定する客芳的な方法がなければなりたせん。そうしないず、意芋の盞違が生じるこずになりたす。

Google 怜玢は、公的な SLA がない重芁なサヌビスの䞀䟋です。Google は誰もが怜玢をできるだけ効率的に䜿甚できるようにしたいず考えおいたすが、䞖界ず契玄を結んでいたせん。 ただし、怜玢が利甚できない堎合には、䟝然ずしお圱響が生じたす。怜玢が利甚できないず、圓瀟の評刀が䜎䞋し、広告収入も枛少したす。 Google for Work など、他の倚くの Google サヌビスには、ナヌザヌずの明瀺的なサヌビス レベル契玄がありたす。 特定のサヌビスに SLA があるかどうかに関係なく、SLI ず SLO を定矩し、それらを䜿甚しおサヌビスを管理するこずが重芁です。

理論はこれだけですが、今床は䜓隓しおみたしょう。

実際の指暙

サヌビス レベルを枬定するには適切な指暙を遞択するこずが重芁であるずいう結論に至ったずしお、サヌビスやシステムにずっおどの指暙が重芁であるかをどのようにしお知るこずができるのでしょうか?

あなたずあなたのナヌザヌは䜕を重芖しおいたすか?

監芖システムで远跡できる SLI ずしおすべおのメトリクスを䜿甚する必芁はありたせん。 ナヌザヌがシステムに䜕を求めおいるかを理解するず、いく぀かの指暙を遞択するのに圹立ちたす。 遞択するむンゞケヌタヌが倚すぎるず、重芁なむンゞケヌタヌに焊点を圓おるこずが難しくなりたすが、少数を遞択するず、システムの倧郚分が攟眮される可胜性がありたす。 通垞、システムの健党性を評䟡および理解するために、いく぀かの重芁な指暙を䜿甚したす。

通垞、サヌビスは、それに関連する SLI の芳点からいく぀かの郚分に分類できたす。

  • カスタム フロント゚ンド システム (この䟋の Shakespeare サヌビスの怜玢むンタヌフェむスなど)。 これらは利甚可胜であり、遅延がなく、十分な垯域幅を備えおいる必芁がありたす。 したがっお、「リク゚ストに応じるこずはできたすか?」ずいう質問が発生する可胜性がありたす。 リク゚ストに応答するたでにどれくらい時間がかかりたしたか? どれくらいのリク゚ストを凊理できたすか?
  • ストレヌゞシステム。 圌らは、短い応答遅延、可甚性、耐久性を重芖しおいたす。 関連する質問: デヌタの読み取りたたは曞き蟌みにはどのくらい時間がかかりたすか? リク゚ストに応じおデヌタにアクセスできたすか? デヌタは必芁なずきに利甚できるのでしょうか? これらの問題の詳现に぀いおは、第 26 章「デヌタの敎合性: 読み取った内容が曞き蟌み内容ず䞀臎する」を参照しおください。
  • デヌタ凊理パむプラむンなどのビッグ デヌタ システムは、スルヌプットずク゚リ凊理のレむテンシに䟝存したす。 関連する質問: 凊理されるデヌタの量はどれくらいですか? リク゚ストの受信からレスポンスの発行たでにデヌタが送信されるたでにどれくらいの時間がかかりたすか? (システムの䞀郚の郚分でも、特定の段階で遅延が発生する可胜性がありたす。)

むンゞケヌタヌのコレクション

サヌビス レベル むンゞケヌタヌの倚くは、Borgmon (以䞋を参照) などの監芖システムを䜿甚しおサヌバヌ偎で収集されるのが最も自然です。 第 10 ç«  時系列デヌタに基づくアラヌトの実践) たたは Prometheus、たたは単玔にログを定期的に分析しお、ステヌタス 500 の HTTP 応答を識別したす。ただし、䞀郚のシステムにはクラむアント偎のメトリクス収集を装備する必芁がありたす。これは、クラむアント偎の監芖が欠劂しおいるず、圱響を䞎える倚くの問題が芋逃される可胜性があるためです。ナヌザヌには圱響したすが、サヌバヌ偎のメトリクスには圱響したせん。 たずえば、シェむクスピア怜玢テスト アプリケヌションのバック゚ンド応答レむテンシに焊点を圓おるず、JavaScript の問題によりナヌザヌ偎でレむテンシが発生する可胜性がありたす。この堎合、ブラりザがペヌゞを凊理するのにかかる時間を枬定するこずがより良い指暙ずなりたす。

集蚈

シンプルさず䜿いやすさのために、生の枬定倀を集蚈するこずがよくありたす。 これは慎重に行う必芁がありたす。

200 秒あたりのリク゚ストなど、䞀郚のメトリクスは単玔に芋えたすが、この䞀芋単玔な枬定でも、時間の経過に䌎うデヌタが暗黙的に集蚈されたす。 枬定倀は特に 0 秒あたり 100 回受信されたすか、それずも XNUMX 分あたりのリク゚スト数の平均倀ですか? 埌者のオプションでは、数秒しか続かない、はるかに倚くの瞬間的なリク゚ストを非衚瀺にするこずができたす。 偶数で XNUMX 秒あたり XNUMX のリク゚ストを凊理し、残りの時間は XNUMX であるシステムを考えおみたしょう。 XNUMX 秒あたり XNUMX リク゚ストの平均倀ずいう定数ず XNUMX 倍の瞬間的な負荷は同じではありたせん。 同様に、ク゚リ レむテンシの平均化は魅力的に芋えるかもしれたせんが、重芁な詳现が隠されおいたす。぀たり、ほずんどのク゚リは高速になる可胜性がありたすが、遅いク゚リも倚数存圚する可胜性がありたす。

ほずんどの指暙は、平均ではなく分垃ずしお芋る方が適切です。 たずえば、SLI レむテンシヌの堎合、䞀郚のリク゚ストはすぐに凊理されたすが、䞀郚のリク゚ストは垞に時間がかかり、堎合によっおはさらに長くかかりたす。 単玔な平均によっお、このような長い遅延を隠すこずができたす。 図は䟋を瀺しおいたす。䞀般的なリク゚ストの凊理には玄 50 ミリ秒かかりたすが、リク゚ストの 5% は 20 倍遅くなりたす。 平均レむテンシヌのみに基づいた監芖ずアラヌトでは、XNUMX 日を通しおの動䜜の倉化は瀺されたせんが、実際には䞀郚のリク゚ストの凊理時間に顕著な倉化がありたす (最䞊郚の行)。

サヌビス レベルの目暙 - Google Experience (Google SRE 本の章の翻蚳)
50、85、95、99 パヌセンタむルのシステム遅延。 Y 軞は察数圢匏です。

むンゞケヌタヌにパヌセンタむルを䜿甚するず、分垃の圢状ずその特性を確認できたす。99 や 99,9 などの高いパヌセンタむル レベルは最悪の倀を瀺し、50 パヌセンタむル (䞭倮倀ずも呌ばれる) は最も頻繁に発生する状態を瀺したす。メトリック。 応答時間のばら぀きが倧きくなるほど、長時間実行されるリク゚ストがナヌザヌ ゚クスペリ゚ンスに圱響を䞎えたす。 この効果は、高負荷時やキュヌが存圚する堎合にさらに高たりたす。 ナヌザヌ ゚クスペリ゚ンスに関する調査によるず、人々は䞀般に、応答時間の分散が高く、䜎速のシステムを奜むこずがわかっおいたす。そのため、䞀郚の SRE チヌムは、99,9 パヌセンタむルでのメトリクスの動䜜が良奜であれば、ほずんどのナヌザヌは問題を経隓しないだろうずいう根拠に基づいお、高いパヌセンタむル スコアのみに焊点を圓おおいたす。 。

統蚈誀差に関する泚意事項

䞀般に、䞀連の倀の平均 (算術平均) ではなく、パヌセンタむルを䜿甚するこずを奜みたす。 これにより、平均ずは倧きく異なる (そしおより興味深い) 特性を持぀こずが倚い、より分散した倀を考慮するこずができたす。 コンピュヌティング システムの人為的な性質により、メトリック倀は偏るこずがよくありたす。たずえば、0 ミリ秒未満で応答を受信できるリク゚ストはなく、1000 ミリ秒のタむムアりトは、それより倧きな倀を持぀成功した応答がないこずを意味したす。タむムアりトよりも。 結果ずしお、平均倀ず䞭倮倀が同じ、たたは互いに近いずいうこずは受け入れられたせん。

事前のテストを行わず、たた特定の暙準的な仮定や近䌌が圓おはたらない限り、デヌタが正芏分垃しおいるず結論づけないように泚意しおいたす。 分垃が予想どおりでない堎合は、問題を修正する自動化プロセス (たずえば、異垞倀が怜出された堎合、リク゚スト凊理の埅ち時間が長くなった状態でサヌバヌを再起動したす) の実行頻床が倚すぎるか、たたは十分でない可胜性がありたす (どちらも適切ではありたせん)。ずおも良い。

指暙の暙準化

SLI の䞀般的な特性を暙準化しお、毎回掚枬する必芁がないようにするこずをお勧めしたす。 暙準パタヌンを満たす機胜は、次のように個々の SLI の仕様から陀倖される堎合がありたす。

  • 集蚈間隔: 「1 分間の平均」
  • 集玄゚リア: 「クラスタヌ内のすべおのタスク」
  • 枬定の頻床: 「10 秒ごず」
  • 含たれるリク゚スト: 「ブラック ボックス監芖ゞョブからの HTTP GET」
  • デヌタの取埗方法: 「サヌバヌ䞊で枬定されたモニタリングのおかげで」
  • デヌタアクセス遅延:「最埌のバむトたでの時間」

劎力を節玄するには、共通メトリックごずに再利甚可胜な SLI テンプレヌトのセットを䜜成したす。 たた、特定の SLI の意味を誰もが理解しやすくなりたす。

実践での目暙

たずは、枬定できるものではなく、ナヌザヌが䜕を気にしおいるかを考える (たたは芋぀け出す!) こずから始めたしょう。 倚くの堎合、ナヌザヌが関心を持っおいるこずは枬定するのが困難たたは䞍可胜であるため、最終的にはナヌザヌのニヌズに近づくこずになりたす。 ただし、枬定しやすいものから始めるず、SLO の有甚性が䜎くなりたす。 その結果、最初に望たしい目暙を特定しおから特定の指暙を䜿甚する方が、指暙を遞択しおから目暙を達成するよりもうたく機胜するこずが刀明するこずがありたす。

目暙を定矩する

最倧限に明確にするために、SLO の枬定方法ず、SLO が有効ずなる条件を定矩する必芁がありたす。 たずえば、次のように蚀えたす (XNUMX 行目は最初の行ず同じですが、SLI のデフォルトを䜿甚したす)。

  • Get RPC 呌び出しの 99% (1 分間の平均) は 100 ミリ秒未満で完了したす (すべおのバック゚ンド サヌバヌで枬定)。
  • Get RPC 呌び出しの 99% は 100 ミリ秒以内に完了したす。

パフォヌマンス曲線の圢状が重芁な堎合は、耇数の SLO を指定できたす。

  • Get RPC 呌び出しの 90% が 1 ミリ秒未満で完了したした。
  • Get RPC 呌び出しの 99% が 10 ミリ秒未満で完了したした。
  • Get RPC 呌び出しの 99.9% が 100 ミリ秒未満で完了したした。

ナヌザヌが異皮ワヌクロヌド、぀たり䞀括凊理 (スルヌプットが重芁な堎合) ず察話型凊理 (レむテンシが重芁な堎合) を生成する堎合、負荷クラスごずに個別の目暙を定矩する䟡倀がある堎合がありたす。

  • 顧客リク゚ストの 95% はスルヌプットを必芁ずしたす。 実行される RPC 呌び出しの数を 1 秒未満に蚭定したす。
  • 99% のクラむアントは遅延を気にしおいたす。 トラフィックが 1 KB 未満、実行時間が 10 ミリ秒未満の RPC 呌び出しの数を蚭定したす。

SLO が 100% 満たされるず䞻匵するのは非珟実的であり、望たしくありたせん。これにより、新しい機胜の導入ず展開のペヌスが䜎䞋し、高䟡な゜リュヌションが必芁になる可胜性がありたす。 代わりに、゚ラヌ バゞェット (蚱容されるシステム ダりンタむムの割合) を蚱可し、この倀を毎日たたは毎週監芖するこずをお勧めしたす。 䞊玚管理職は、月次たたは四半期ごずの評䟡を必芁ずする堎合がありたす。 (゚ラヌ バゞェットは、別の SLO ず比范するための単なる SLO です。)

SLO 違反のパヌセンテヌゞは、゚ラヌ バゞェットず比范できたす (第 3 章およびセクションを参照) 「゚ラヌバゞェットの動機」)、その差分倀は、新しいリリヌスをい぀デプロむするかを決定するプロセスぞの入力ずしお䜿甚されたす。

目暙倀の遞択

蚈画倀 (SLO) の遞択は、遞択された SLI、SLO (および堎合によっおは SLA) に反映される必芁がある補品ずビゞネスの利益のため、玔粋に技術的な䜜業ではありたせん。 同様に、人員配眮、垂堎投入たでの時間、機噚の可甚性、および資金調達に関する問題に関しお情報亀換が必芁になる堎合がありたす。 SRE はこの䌚話に参加し、さたざたなオプションのリスクず実行可胜性を理解するのに圹立぀必芁がありたす。 より生産的な議論を確実にするために圹立぀かもしれないいく぀かの質問を考えおみたした。

珟圚のパフォヌマンスに基づいお目暙を遞択しないでください。
システムの匷みず限界を理解するこずは重芁ですが、根拠なくメトリクスを適応させるず、システムの維持が劚げられる可胜性がありたす。目暙を達成するには、倧幅な再蚭蚈なしには達成できない英雄的な努力が必芁になりたす。

耇雑にしないでおく
耇雑な SLI 蚈算により、システム パフォヌマンスの倉化が隠蔜され、問題の原因を芋぀けるこずが困難になる可胜性がありたす。

絶察倀を避ける
埅ち時間を増加させるこずなく、無限に増倧する負荷を凊理できるシステムを実珟したいずいう誘惑に駆られたすが、この芁件は非珟実的です。 このような理想に近づくシステムは、蚭蚈ず構築に倚くの時間がかかり、運甚コストが高く぀き、それ以䞋のもので十分ずいうナヌザヌの期埅に応えられすぎたす。

可胜な限り少ない SLO を䜿甚する
システム属性を適切にカバヌできるように、十分な数の SLO を遞択しおください。 遞択した SLO を保護する: 特定の SLO を指定しおも優先順䜍に関する議論に決しお勝おない堎合は、おそらくその SLO を怜蚎する䟡倀はありたせん。 ただし、すべおのシステム属性が SLO に埓うわけではありたせん。SLO を䜿甚しおナヌザヌの満足床を蚈算するのは困難です。

完璧を远い求めないでください
負荷時のシステムの動䜜に぀いお詳しく孊ぶに぀れお、SLO の定矩ず目暙をい぀でも調敎できたす。 達成䞍可胜だずわかったら緩和する必芁がある厳しすぎる目暙を遞択するよりも、流動的な目暙から始めお、時間をかけお改善しおいく方が良いでしょう。

SLO はナヌザヌぞの懞念を反映しおいるため、SRE や補品開発者にずっお䜜業の優先順䜍を決定する際の䞻芁な掚進芁因ずなる可胜性があり、たたそうあるべきです。 優れた SLO は、開発チヌムにずっお有甚な実斜ツヌルです。 しかし、SLO の蚭蚈が䞍十分だず、チヌムが過床に積極的な SLO を達成するために英雄的な努力をした堎合には無駄な䜜業が発生する可胜性があり、SLO が䜎すぎる堎合には粗悪な補品が完成する可胜性がありたす。 SLO は匷力な手段なので、賢明に䜿甚しおください。

枬定倀を管理する

SLI ず SLO は、システムの管理に䜿甚される重芁な芁玠です。

  • SLI システムを監芖および枬定したす。
  • SLI ず SLO を比范し、アクションが必芁かどうかを刀断したす。
  • 行動が必芁な堎合は、目暙を達成するために䜕が必芁かを考えたす。
  • このアクションを完了しおください。

たずえば、ステップ 2 でリク゚ストがタむムアりトになり、䜕もしなければ数時間以内に SLO を砎っおしたうこずが瀺されおいる堎合、ステップ 3 では、サヌバヌが CPU バりンドであり、サヌバヌを远加するず負荷が分散されるずいう仮説をテストするこずが含たれる可胜性がありたす。 SLO がなければ、行動を起こすべきかどうか (あるいはい぀行動すべきか) がわかりたせん。

SLO を蚭定する - ナヌザヌの期埅が蚭定されたす
SLO を公開するず、システム動䜜に察するナヌザヌの期埅が蚭定されたす。 ナヌザヌ (および朜圚的なナヌザヌ) は、倚くの堎合、サヌビスが䜿甚に適しおいるかどうかを理解するために、サヌビスに䜕を期埅できるかを知りたいず考えおいたす。 たずえば、写真共有 Web サむトを䜿甚したい人は、たずえ同じサヌビスがアヌカむブ レコヌド管理システムには理想的であっおも、可甚性がわずかに䜎䞋する代わりに寿呜ず䜎コストが玄束されおいるサヌビスの䜿甚を避けたいず思うかもしれたせん。

ナヌザヌに珟実的な期埅を蚭定するには、次の戊術のいずれかたたは䞡方を䜿甚したす。

  • 安党マヌゞンを確保しおください。 ナヌザヌに公開されおいるものよりも厳栌な内郚 SLO を䜿甚したす。 これにより、問題が倖郚に明らかになる前に察応する機䌚が埗られたす。 たた、SLO バッファを䜿甚するず、システムのパフォヌマンスに圱響を䞎えるリリヌスをむンストヌルするずきに安党マヌゞンを確保できるため、ダりンタむムでナヌザヌをむラむラさせるこずなく、システムの保守が容易になりたす。
  • ナヌザヌの期埅を超えないでください。 ナヌザヌはあなたが蚀うこずではなく、あなたが提䟛するものに基づいおいたす。 サヌビスの実際のパフォヌマンスが、蚘茉されおいる SLO よりもはるかに優れおいる堎合、ナヌザヌは珟圚のパフォヌマンスに䟝存するこずになりたす。 システムを意図的にシャットダりンするか、軜負荷時のパフォヌマンスを制限するこずで、過床の䟝存を回避できたす。

システムがどの皋床期埅に応えおいるかを理解するこずは、システムを高速化し、アクセスしやすく埩元力を高めるこずに投資するかどうかを決定するのに圹立ちたす。 あるいは、サヌビスのパフォヌマンスが良すぎる堎合は、スタッフの時間を技術的負債の返枈、新機胜の远加、新補品の導入など、他の優先事項に費やす必芁がありたす。

実際の協定

SLA を䜜成するには、ビゞネス チヌムず法務チヌムが、SLA に違反した堎合の結果ず眰則を定矩する必芁がありたす。 SRE の圹割は、SLA に含たれる SLO を満たす際に起こり埗る課題を理解できるように支揎するこずです。 SLO を䜜成するための掚奚事項のほずんどは、SLA にも適甚されたす。 ナヌザヌに玄束する内容は控えめにするこずが賢明です。玄束が倚ければ倚いほど、䞍合理たたは遵守が難しいず思われる SLA を倉曎たたは削陀するこずが困難になるためです。

蚳文を最埌たで読んでいただきありがずうございたす。 モニタリングに関する私の電報チャンネルを賌読しおください モニタヌリム_it О Medium のブログ.

出所 habr.com

コメントを远加したす