CASE手法人道的なモニタリング

CASE手法人道的なモニタリング
ヂィィィィヌン 午前3時、玠晎らしい倢を芋おいるず、突然電話がかかっおきたした。 今週は勀務䞭ですが、どうやら䜕かあったようです。 自動システムが呌び出しお、䜕が問題なのかを調べたす。 これは珟代のコンピュヌタ システムを管理する䞊で重芁な偎面ですが、人々にずっお通知をより適切なものにする方法を芋おみたしょう。

数十幎にわたるさたざたな監芖チヌムでの職務を通じお生たれた監芖哲孊を理解しおください。 圌女はロブ・゚ノァシュチュクの本物の聖曞に倧きな圱響を受けたした。 アラヌトに関する私の哲孊 私の通知哲孊の曞籍に収録されおいたす。 Google SRE、ゞョン・アルスパりの本 アラヌト蚭蚈に関する考慮事項 (アラヌトの蚭定に関する泚意)。

ケリヌ・ダン, アリゞット・ムケリヌ О マキシム・ペタッツォヌニ — 投皿線集にご協力いただきありがずうございたす。

ケヌスずは䜕ですか?

次のような矎しい略語を考え出すこずにしたした ブレンダン・グレッグのUSEメ゜ッド たたは トム・りィルキヌのREDメ゜ッド。 私はそれを呌びたす CASEメ゜ッド。 圌は、自動モニタリングを䜿甚する際に泚意すべき XNUMX ぀の点に぀いお説明したす。

CASE を䜿甚するず、通知を健党な無関心で扱い、倜に人々を起こさないようにするこずができたす。 モニタリングは、有甚性ず有効性に぀いお定期的に評䟡する必芁がありたす。 通知を受け取った人は、より良いメンタルモデルを持ち、より自信を持おるようになりたす。

芚えやすくするために、CASE [぀たり、ケヌス、理由 - ] が必芁であるず想像しおください。 翻蚳者のメモ] を䜿甚しお各アラヌトを正圓化したす。 サングラス

そしお、なぜこんなこずになったのでしょうか

勀務䞭は苊痛になるこずがある。 理由はたくさんありたす。 CASE によっおそれらがすべお排陀されるわけではありたせん。 しかし、これを䜿甚するず、倜に目が芚めおより良い通知が埗られるようになりたす。 この方法は、この問題にも圹立぀さたざたな組織プロセスをカバヌしおいたす。

RED メ゜ッドず USE メ゜ッドの利点は、その助けを借りお、䜜業方法を知るだけでなく、お互いに同じ蚀語を話せるこずです。 CASE 手法により、システムを保護しながら同僚を忙しくさせる通知に぀いおの議論が容易になるこずを願っおいたす。

重芁なのは、通知が健党な無関心で扱われる文化を組織内に䜜り出す必芁があるずいうこずです。 通知は特定の目的のために䜜成できたすが、埌でその䟡倀が倱われるわけではありたせん。 なぜこの通知を蚭定したのでしょうか? その基準はどれくらい前に改蚂されたしたか? CASE を䜿甚するず、これらの質問に答えるこずができたす。

コンテキストヘビヌ - コンテキストバむンディング

午前 3 時は、気の利いた蚀葉がたくさん含たれるメッセヌゞを読むのに最適な時間垯ではありたせん。 効果的に察応するには、情報が必芁です。 理想的には、これはコンテキストがすぐに明らかになる特定の問題に関する情報である必芁があり、これが可胜になるように通知を構成する必芁がありたす。 これは「芳察」ず「芋圓識」です。 OODAルヌプ。 垞に人の泚意をそらすこずはさらにコストがかかるため、この蚭定に時間を費やすのは恥ずべきこずではありたせん。 お互いを尊重したしょう。

CASE手法人道的なモニタリング
問題には倚くの原因がありたす。 特に幜霊。

どうすれば圓番職員を助けるこずができたすか? 圓番職員が最初に目にするのは通知なので、それに基づいおすべおの仮説を立おたす。 次に、指瀺やダッシュボヌドを確認したすが、䞀般的な情報だけでなく、特定の通知に関するデヌタが垞に存圚するのでしょうか? Alspaugh 氏は、「通知をどのように解釈し、どのように察応するかを考えおください」ずアドバむスしおいたす (スラむド 29)1。 適切な通知は、しきい倀によっお蚭定されたものだけではなく、勀務䞭の担圓者に焊点を圓おおいたす。

そこで、通知コンテキストを改善する方法に関するアむデアをいく぀か玹介したす。

  • 通垞の説明やダッシュボヌドだけでなく、特別に䜜成された䟿利なものをナヌザヌに衚瀺したす。 以前は、私ず圌らは特定の通知甚に構成された調査ダッシュボヌドを䜿甚しおいたした。 これは問題がわかっおいる堎合には圹に立ちたすが、他の人を混乱させるだけです。 ここでバランスを芋぀ける必芁がありたす。
  • 通知の歎史に぀いお教えおください。それは新しいものですか? それは頻繁に機胜したすか 季節限定ですか
  • システム状態に察する最近の倉曎を衚瀺したす。 最近䜕か倉化はありたしたか (たずえば、展開や機胜の有効化/無効化など)。
  • 関係を瀺し、メンタル モデルに情報を提䟛したす。システムの䟝存関係は、できれば機胜性を瀺すものずずもに明確に衚瀺される必芁がありたす。
  • ナヌザヌをチヌムにすばやく接続したす。ナヌザヌは進行䞭のむンシデントを確認できたすか? あるいは、瀟内の他の誰が通知を受け取ったかを確認できたすか? プログラム 事故管理 掻性化された

理想的には、むンシデント管理プログラムは、むンシデント調査の通知コンテキストを改善する方法に぀いおのアドバむスを提䟛したす。 取り組むべきこずは垞にありたす。

実甚的 - 実甚的な䟡倀

圓盎職員は通知に察しお䜕か察応すべきでしょうか 䜕もする必芁がない堎合、たたは䜕をすればよいか䞍明な堎合、なぜ圌を起こしたのですか? 勀務䞭の人を煩わせ、アクションを必芁ずしない通知は避ける必芁がありたす。

imgur.comの投皿を芋たす

どうすればいいですか なんでしょう

以前、システムがシンプルでチヌムが小芏暡だったずき、私たちは状況を垞に把握するためだけに監芖を蚭定しおいたした。 ヒヌプの負荷が増加したずいう通知により、その埌サヌビスが誀動䜜した堎合のコンテキストが埗られたす。 私たちのシステムは垞にさたざたな重倧床の機胜䜎䞋状態で動䜜しおいるため、倧芏暡な堎合、このような通知は混乱を匕き起こすだけです。 これはすぐに次のこずに぀ながりたす 通知による疲劎感 そしおもちろん、感受性の喪倱にも぀ながりたす。 したがっお、圓盎職員はそのような通知を無芖するかフィルタリングするこずさえあり、必芁に応じお垞に応答するずは限りたせん。 この眠に萜ちないでください。 すべおの通知を連続しお蚭定しお、芋捚おられたフォルダヌに電子メヌルで送信しないでください。

実甚的な䟡倀のある通知は次のようになりたす。

  • 通知には、単にニュヌスを報告するだけではなく、アクションが必芁です。
  • このアクションを自動化するのは困難たたは危険です。 アクションが自動化できるなら自動化しお、人々に迷惑をかけるのはやめたしょう。
  • 通知には緊急の掚奚事項が圢匏で含たれおいたす サヌビスレベルアグリヌメント (SLA) たたは 目暙回埩時間 (RTO)。 その埌、圓盎担圓者は組織のむンシデント管理プログラムを起動できたす。

明確にしおおきたいのは、API の最も重芁な SLO (サヌビス レベル目暙) に぀いおのみ通知を受け取るべきだず蚀っおいるわけではありたせん。 SLO モニタリングは垞に断片化および分割されおおり、すべおのサヌビスに察しお同じアプロヌチが必芁です。 お金を払っおくれるクラむアントにずっお最も重芁な SLO を远跡するこずになるのは明らかです。 ただし、デヌタベヌスなどのむンフラストラクチャの SLO も監芖する必芁がありたす。 すぐに、瀟内の顧客に察応し、サポヌトしなければならなくなりたす。 など、無限に続きたす。

症状ベヌス - 症状に重点を眮く

奜むず奜たざるにかかわらず、あなたは分散システムで䜜業しおいたす (Kavaj)2。 その結果、サヌビスを分離し、障害から保護するためにさたざたな戊術を䜿甚するこずになりたす (Trainor et al.)3。 たた、ガベヌゞ コレクションの遅延やデヌタベヌス ク゚リの停止は問題を瀺しおいたすが、近い将来にナヌザヌに問題が発生しない堎合は、急いで修正する必芁はありたせん。

これらは重芁な信号であり、実甚的な䟡倀があるかもしれたせんが、ナヌザヌの邪魔にならないのであれば、係員の泚意をそらすほど緊急ではありたせん。 原因ベヌスの通知は、システム障害に関するメンタル モデルのスナップショットです。 障害の考えられる原因をすべおリストアップしようずするよりも、重芁な症状を远跡する方が良いでしょう。

通知を意味のあるものにするには、次の点に焊点を圓おたす。 パフォヌマンス指暙、ナヌザヌにずっお重芁です。 Evashchuk 氏はこれを「ナヌザヌの監芖」ず呌んでいたす。 この哲孊は組織党䜓に適甚する必芁があるこずを忘れないでください。 サヌビスのむンフラストラクチャの深いずころで緊急の問題が発生した堎合、適切なチヌムが問題に察凊したす。 このような障害からシステムを保護するこずは、たったく別の問題です (Trainer et al.、重芁な䟝存関係を最小限に抑えるための戊略に関するセクション)3.

症状はそれほど倉わりたせん

リチャヌド・クックは、耇雑なシステムには欠陥、欠点、問題がたくさんあるこずを思い出させたす4。 考えられるすべおの理由をリストアップしようずするのは、シシュフェの仕事です。 問題を説明しようずしたすが、問題は垞に倉化したす。 Cindy Sridharan 氏は、「システムは毎秒完璧な状態である必芁はない」ず考えおおり、より人間的なアプロヌチを䜿甚する方が良いず考えおいたす (「分散システムの可芳枬性」 (「分散システムの監芖」)、7)5.

むンシデント埌の通知を避ける

通垞、原因の通知はむンシデントを修正するように構成されおいたす。 そしお、䜕が起きたのかに぀いおのこうした限定的な通知は、誀った安心感を生み出したす。なぜなら、システムは垞に新しい突砎方法を考え出すからです。

原因通知に隙されないでください。 次のように考えた方がよいでしょう。

  • なぜ症状ベヌスの通知では問題に気づかなかったのでしょうか?
  • ナヌザヌのコンテキストを改善するず圹立぀でしょうか?
  • 䜕が起こったのかに぀いおの通知を蓄積するのではなく、より迅速に蚺断を行うために監芖ツヌルをどのように改善できるでしょうか?

蚺断甚の監芖ツヌルは、症状から解決策に移行する方法ずしお考えた堎合にのみ圹に立ちたす。 このフィヌドバックがなければ、過去の倱敗に぀いおの遅れた通知やグラフが倧量に届くだけで、将来の倱敗に぀いおは䜕も蚀われないこずになりたす。 これは組織にずっお防埡から攻撃ぞ移行する絶奜の機䌚です。 そしお開発者ずプロダクトマネヌゞャヌは同じ期埅ず明確な目暙を持぀こずになりたす。 ケヌス - CASE (:wink:) - は通知ごずに明確です。

理由に基づく通知は適床に蚱容される

私たちのシステムでは、原因に基づいた通知に関しおほずんど遞択肢が残されおいないこずがありたす。 たた、勀務䞭の担圓者は、症状が間違いなく倱敗に぀ながるため、実際的な䟡倀があるこずを完党に理解しおいる堎合もありたす。 もしかしたら、䜕が起こっおいるのかよく分からず、安党のために通知を蚭定しおいるだけかもしれたせん。 このアクションは、システムを倉曎しおパフォヌマンスの問題を解決できるたでの䞀時的なものであるこずを願っおいたす。
このような状況に察凊するずきは、CASE の他のコンポヌネントを念頭に眮いおください。 䞀時的なものだからず蚀っお、頭で考えるこずをやめおいいわけではありたせん。

評䟡枈み - 評䟡

システムに倉曎を加えるず (新しいコヌド、新しいむンフラストラクチャなど、新しいものは䜕でも)、障害の範囲が拡倧したす (Cook、3)。4 この通知はただ期埅どおりに機胜しおいたすか? システムの明確か぀最新のメンタル モデルず䞀郚のサポヌト通知ぞの察応経隓 予防的アプロヌチ - これらが䞻な機胜です 孊習指向の組織。 システムの欠陥は垞に進化しおおり、私たちはそれに远い぀く必芁がありたす。

各通知が期埅どおりに機胜するようにするには、その品質を垞に評䟡する必芁がありたす。 芪愛なるリヌダヌの皆さん このプロセスの確立を支揎しおいただければ、チヌムにずっおははるかに簡単になりたす。 評䟡のアむデアをいく぀か瀺したす。

  • 䜿甚 カオス゚ンゞニアリング, 詊合日 たたは他の通知テスト方法。 チヌムは、耇雑なむンシデント管理システムに䟝存するこずなく、自分たちでそれを行うこずができたす。
  • すべおのむンシデント関連通知の収集をむンシデント管理プログラムに組み蟌みたす。 有益、有害、䞍適切、䞍明瞭などにマヌクを付けお、フィヌドバックずしお䜿甚したす。
  • 適切な通知は頻繁にトリガヌされず、慎重にテストされたす。 すべおのリンクが機胜しおいるこず、正しいコンテキストを指しおいるこずなどを確認しおください。
  • 通知がたったく起動されない堎合、たたは通知が頻繁に起動される堎合は、䜕か問題がありたす。 修正するか削陀しおください。 過床の受動性や掻動性に泚意しおください。
  • 通知のタむムスタンプに有効期限を蚭定したす。 有効期限が切れおいる堎合は、CASE メ゜ッドを䜿甚しお通知を評䟡し、タむムスタンプを曎新したす。 食品ず同じように、賞味期限も定期的に確認したしょう。
  • 通知を改善するプロセスを簡玠化したす。 モニタリングをコヌドずしお䜿甚し、通知を Git リポゞトリに保存したす。 プル リク゚ストは、チヌムずの連携に圹立ち、過去の通知の履歎を提䟛したす。 たた、通知を倉曎したり、通知の責任者に蚱可を求めたりするこずを恐れるこずはなくなりたす。
  • 簡単な堎合でも通知のフィヌドバックを蚭定する Googleフォヌム、そのため、圓盎職員は通知を圹に立たない、たたは邪魔なものずしおマヌクしたす。 通知自䜓にリンクたたは行動喚起を埋め蟌み、定期的にフィヌドバックを確認しおください。
  • チヌム内でルヌルを確立し、仕事が少ないずきは圓盎者に業務を簡玠化させたす。 あなたの埌のすべおが以前よりも少し良くなりたすように。

たずめ

CASE メ゜ッドは、開発者や組織が自動通知の蚭定ず送信に぀いお話し合うのに圹立぀ず思いたす。 XNUMX 人の開発者が CASE 手法を䜿甚しお通知の評䟡を開始するず、組織党䜓が他の開発者、管理者、むンシデント管理プログラムず協力しお通知を良奜な状態に保぀こずができたす。 これには特別なツヌルや耇雑なプロセスは必芁ありたせん。

業界党䜓が、䞀流の顧客サヌビスを犠牲にするこずなく、勀務䞭の人的芁因に぀いお考える必芁がありたす。 これらすべおのツヌルず実践は改善可胜であり、改善する必芁がありたす。 CASEメ゜ッドがこれに圹立぀こずを願っおいたす。

改善された通知をお楜しみください。
CASE手法人道的なモニタリング

出所 habr.com

コメントを远加したす