Dziiiiin! Ir 3 naktÄ«, jÅ«s redzat brÄ«niŔķīgu sapni, un pÄkÅ”Åi atskan zvans. JÅ«s Å”onedÄļ dežurÄjat, un acÄ«mredzot kaut kas noticis. AutomÄtiskÄ sistÄma zvana, lai noskaidrotu, kas ir nepareizi. Tas ir svarÄ«gs mÅ«sdienu datorsistÄmu pÄrvaldÄ«bas aspekts, taÄu apskatÄ«sim, kÄ padarÄ«t paziÅojumus cilvÄkiem labÄkus.
IepazÄ«stieties ar monitoringa filozofiju, kas radusies vairÄku gadu desmitu laikÄ, pildot savus pienÄkumus dažÄdÄs uzraudzÄ«bas komandÄs. ViÅu lielÄ mÄrÄ ietekmÄja Ä«stÄ Roba EvaÅ”Äuka BÄ«bele Mana brÄ«dinÄÅ”anas filozofija (Mana paziÅojumu filozofija), kas iekļauta grÄmatÄ par Google SRE, un Džona Alspauga grÄmata BrÄ«dinÄjumu dizaina apsvÄrumi (PiezÄ«mes par brÄ«dinÄjumu iestatÄ«Å”anu).
Es nolÄmu izdomÄt skaistu saÄ«sinÄjumu, piemÄram, Brendana Grega USE metode vai Toma Vilkija RED metode. Es to saucu CASE metode. ViÅÅ” apraksta Äetrus punktus, kuriem jÄpievÄrÅ” uzmanÄ«ba, strÄdÄjot ar automÄtisko uzraudzÄ«bu:
Ja izmantojat CASE, jÅ«s izturaties pret paziÅojumiem ar veselÄ«gu vienaldzÄ«bu un nemodinÄt cilvÄkus naktÄ«. UzraudzÄ«bas lietderÄ«ba un efektivitÄte ir regulÄri jÄnovÄrtÄ. Kad persona saÅems paziÅojumu, viÅam bÅ«s labÄki garÄ«gie modeļi un lielÄka pÄrliecÄ«ba.
Lai to bÅ«tu vieglÄk atcerÄties, iedomÄjieties, ka jums ir nepiecieÅ”ams CASE [tas ir, gadÄ«jums, iemesls - tulka piezÄ«me], lai pamatotu katru brÄ«dinÄjumu. :saulesbrilles:
Un kÄpÄc tas viss?
Dežūras var bÅ«t sÄpes. Daudzu iemeslu dÄļ. Un CASE tos visus nenovÄrsÄ«s. Bet ar to jÅ«s naktÄ« pamodÄ«sities, lai saÅemtu labÄkus paziÅojumus. Å Ä« metode aptver dažÄdus organizatoriskos procesus, kas arÄ« palÄ«dzÄs Å”ajÄ jautÄjumÄ.
RED un USE metožu skaistums ir tÄds, ka ar to palÄ«dzÄ«bu mÄs ne tikai zinÄm, kÄ strÄdÄt, bet arÄ« runÄjam vienÄ valodÄ. Es ceru, ka CASE metode atvieglos tÄdu paziÅojumu apsprieÅ”anu, kas aizsargÄ mÅ«su sistÄmas, bet noslogo mÅ«su kolÄÄ£us.
Lieta ir tÄda, ka jums savÄ organizÄcijÄ ir jÄrada kultÅ«ra, kurÄ paziÅojumi tiek izturÄti ar veselÄ«gu vienaldzÄ«bu. PaziÅojumus var izveidot konkrÄtam mÄrÄ·im, taÄu tas nav fakts, ka tie vÄlÄk nezaudÄs vÄrtÄ«bu. KÄpÄc mÄs iestatÄ«jÄm Å”o paziÅojumu? Cik sen tÄ kritÄriji ir pÄrskatÄ«ti? Izmantojot CASE, uz Å”iem jautÄjumiem var atbildÄt.
Context-Heavy ā konteksta saistÄ«Å”ana
3:XNUMX nav labÄkais laiks, lai lasÄ«tu ziÅas, kurÄs ir daudz gudru vÄrdu. Lai reaÄ£Ätu efektÄ«vi, jums ir nepiecieÅ”ama informÄcija. IdeÄlÄ gadÄ«jumÄ tai vajadzÄtu bÅ«t informÄcijai par konkrÄtu problÄmu, kuras konteksts ir uzreiz skaidrs, un paziÅojumi ir jÄkonfigurÄ tÄ, lai tas bÅ«tu iespÄjams. Tas ir "novÄroÅ”ana" un "orientÄcija" no OODA cilpa. Nav kauns tÄrÄt laiku Å”im iestatÄ«jumam, jo āāpastÄvÄ«ga cilvÄka uzmanÄ«bas novÄrÅ”ana ir vÄl dÄrgÄka. CienÄ«sim viens otru.
ProblÄmÄm ir daudz avotu. ÄŖpaÅ”i spokos.
KÄ es varu palÄ«dzÄt dežurantam? Pirmais, ko dežurants redz, ir paziÅojums, tÄpÄc uz tÄ pamata viÅÅ” izvirza visas hipotÄzes. PÄc tam viÅÅ” aplÅ«ko instrukcijas un informÄcijas paneļus, bet vai vienmÄr ir dati par konkrÄtu paziÅojumu, nevis tikai vispÄrÄ«ga informÄcija? Alspaugh iesaka "padomÄt par to, kÄ jÅ«s varÄtu interpretÄt paziÅojumu vai atbildÄt uz to" (29. slaids)1. Labs paziÅojums ir vÄrsts uz dežurÄjoÅ”u personu, nevis tikai konfigurÄtu pÄc sliekÅ”Åa.
Å eit ir dažas idejas, kÄ uzlabot paziÅojumu kontekstu.
ParÄdiet lietotÄjam kaut ko noderÄ«gu un Ä«paÅ”i izveidotu, nevis tikai parastÄs instrukcijas vai informÄcijas paneli. IepriekÅ” mÄs ar puiÅ”iem izmantojÄm izmeklÄÅ”anas informÄcijas paneļus, kas bija konfigurÄti konkrÄtiem paziÅojumiem. Tas palÄ«dzÄs, ja problÄma ir zinÄma, bet tikai mulsinÄs citus. Å eit mums jÄatrod lÄ«dzsvars.
PastÄstiet mums par paziÅojuma vÄsturi: vai tas ir jauns? Vai tas bieži darbojas? Vai tas ir sezonÄls?
RÄdÄ«t jaunÄkÄs izmaiÅas sistÄmas stÄvoklÄ«. Vai pÄdÄjÄ laikÄ kaut kas ir mainÄ«jies? (PiemÄram, izvietoÅ”ana vai funkcionalitÄtes iespÄjoÅ”ana/atspÄjoÅ”ana.)
ParÄdiet attiecÄ«bas un sniedziet informÄciju garÄ«gajam modelim: sistÄmas atkarÄ«bÄm jÄbÅ«t skaidri redzamÄm, vÄlams ar norÄdi par funkcionalitÄti.
Ätri savienojiet lietotÄju ar komandu: vai viÅÅ” var redzÄt notiekoÅ”os incidentus vai uzzinÄt, kurÅ” vÄl uzÅÄmumÄ ir saÅÄmis paziÅojumu? Programma incidentu vadÄ«ba aktivizÄts?
IdeÄlÄ gadÄ«jumÄ incidentu pÄrvaldÄ«bas programma sniegs padomus par to, kÄ uzlabot incidentu izmeklÄÅ”anas paziÅoÅ”anas kontekstu. VienmÄr ir pie kÄ strÄdÄt!
RÄ«cÄ«ba ā praktiska vÄrtÄ«ba
Vai dežurantam bÅ«tu kaut kas jÄdara, reaÄ£Äjot uz paziÅojumu? Ja jums nekas nav jÄdara vai nav skaidrs, ko darÄ«t, kÄpÄc jÅ«s viÅu pamodinÄjÄt? Jums ir jÄizvairÄs no paziÅojumiem, kas kaitina dežurantus un neprasa nekÄdas darbÄ«bas.
AgrÄk, kad sistÄmas bija vienkÄrÅ”as un komandas bija mazas, mÄs izveidojÄm uzraudzÄ«bu, lai bÅ«tu lietas kursÄ. PaziÅojums, ka kaudzes slodze ir palielinÄjusies, sniegs mums kontekstu, ja pakalpojums vÄlÄk nedarbosies. PlaÅ”Ä mÄrogÄ Å”Ädi paziÅojumi tikai radÄ«s neskaidrÄ«bas, jo mÅ«su sistÄmas vienmÄr darbojas dažÄda smaguma degradÄcijas stÄvoklÄ«. Tas Ätri noved pie nogurums no paziÅojumiem un, protams, jutÄ«bas zudums. TÄpÄc dežurants Å”Ädus paziÅojumus ignorÄ vai pat filtrÄ un ne vienmÄr atbild uz tiem pÄc vajadzÄ«bas. NeiekrÄ«ti Å”ajÄ slazdÄ! Neiestatiet visus paziÅojumus pÄc kÄrtas un pÄc tam nesÅ«tiet tos pa e-pastu uz kÄdu dieva pamestu mapi.
LÅ«k, kÄ izskatÄs paziÅojums ar praktisku vÄrtÄ«bu:
Lai saÅemtu paziÅojumu, ir jÄrÄ«kojas, nevis vienkÄrÅ”i jÄziÅo par jaunumiem.
Å o darbÄ«bu ir grÅ«ti vai riskanti automatizÄt. Ja darbÄ«bu var automatizÄt, tad automatizÄjiet, beidziet mocÄ«t cilvÄkus!
Es vÄlos precizÄt: es nesaku, ka paziÅojumiem ir jÄnÄk tikai par vissvarÄ«gÄkajiem API SLO (pakalpojuma lÄ«meÅa mÄrÄ·iem). SLO uzraudzÄ«ba ir pastÄvÄ«gi sadrumstalota un sadalÄ«ta, un tai ir nepiecieÅ”ama vienÄda pieeja visiem pakalpojumiem. Ir skaidrs, ka jÅ«s izsekosit svarÄ«gÄkajiem SLO klientiem, kuri jums maksÄ. TaÄu ir jÄuzrauga arÄ« infrastruktÅ«ras SLO, piemÄram, datu bÄzes. DrÄ«zumÄ bÅ«s jÄtiek galÄ ar iekÅ”Äjiem klientiem un jÄatbalsta tie. Un tÄ tÄlÄk bezgalÄ«gi.
Pamatojoties uz simptomiem ā uzsvars uz simptomiem
NeatkarÄ«gi no tÄ, vai jums tas patÄ«k vai nÄ, jÅ«s strÄdÄjat sadalÄ«tÄ sistÄmÄ (Kavaj)2. RezultÄtÄ jÅ«s izmantojat dažÄdas taktikas, lai izolÄtu pakalpojumus un pasargÄtu tos no neveiksmÄm (Trainor et al.)3. Un, lai gan aizkavÄta atkritumu savÄkÅ”ana vai apstÄjies datu bÄzes vaicÄjums norÄda uz problÄmÄm, nav jÄsteidzas ar to novÄrÅ”anu, ja lietotÄjiem tuvÄkajÄ nÄkotnÄ nebÅ«s problÄmu.
Tie ir svarÄ«gi signÄli, un tiem var bÅ«t praktiska vÄrtÄ«ba, taÄu, ja tie netraucÄ lietotÄjus, tad nav pietiekami steidzami novÄrst apkalpotÄja uzmanÄ«bu. Uz cÄloÅiem balstÄ«ti paziÅojumi ir mÅ«su garÄ«go modeļu momentuzÅÄmumi par sistÄmas kļūmi. LabÄk ir izsekot svarÄ«giem simptomiem, nevis mÄÄ£inÄt uzskaitÄ«t visus iespÄjamos neveiksmes cÄloÅus.
Lai paziÅojumi bÅ«tu jÄgpilni, koncentrÄjieties uz darbÄ«bas rÄdÄ«tÄji, kas ir svarÄ«gi lietotÄjiem. EvaÅ”Äuks to sauc par "lietotÄju uzraudzÄ«bu". Atcerieties, ka Ŕī filozofija ir jÄpiemÄro visÄ organizÄcijÄ. Ja kÄdam dienestam radÄ«sies steidzamas problÄmas kaut kur dziļi infrastruktÅ«rÄ, attiecÄ«gÄ komanda tos nokÄrtos. SistÄmu aizsardzÄ«ba pret Å”ÄdÄm kļūmÄm ir pilnÄ«gi atseviŔķs jautÄjums (Trainer et al., sadaļa par stratÄÄ£ijÄm kritisko atkarÄ«bu samazinÄÅ”anai).3.
Simptomi nav tik mainīgi
RiÄards Kuks atgÄdina, ka sarežģītas sistÄmas ir pilnas ar trÅ«kumiem, nepilnÄ«bÄm un problÄmÄm4. MÄÄ£inÄjums uzskaitÄ«t visus iespÄjamos iemeslus ir SÄ«zifa uzdevums. JÅ«s mÄÄ£inÄt aprakstÄ«t problÄmas, bet tÄs visu laiku mainÄs. Sindija Å ridharana uzskata, ka "sistÄmÄm nav jÄbÅ«t ideÄlÄ stÄvoklÄ« katru sekundi" un labÄk ir izmantot cilvÄcÄ«gÄku pieeju ("SadalÄ«to sistÄmu novÄrojamÄ«ba" (āSadalÄ«to sistÄmu uzraudzÄ«baā), 7)5.
Izvairieties no paziÅojumiem pÄc incidenta
Parasti paziÅojumi par cÄloÅiem tiek konfigurÄti, lai novÄrstu incidentus. Un Å”ie ierobežotie paziÅojumi par notikuÅ”o rada maldÄ«gu droŔības sajÅ«tu, jo sistÄma katru reizi nÄk klajÄ ar jauniem veidiem, kÄ izlauzties.
Neļaujiet sevi apmÄnÄ«t ar paziÅojumiem par iemeslu. LabÄk padomÄjiet:
KÄpÄc uz simptomiem balstÄ«tais paziÅojums nepamanÄ«ja problÄmu?
Vai bÅ«tu noderÄ«gi uzlabot kontekstu lietotÄjam?
KÄ uzlabot uzraudzÄ«bas rÄ«kus, lai ÄtrÄk noteiktu diagnozi, nevis uzkrÄtu paziÅojumus par notikuÅ”o?
Diagnozes uzraudzÄ«bas rÄ«ki palÄ«dzÄs tikai tad, ja jÅ«s domÄjat par tiem kÄ veidu, kÄ pÄriet no simptoma uz risinÄjumu. Bez Ŕīm atsauksmÄm jÅ«s vienkÄrÅ”i saÅemsit vÄlu paziÅojumus un diagrammas par pagÄtnes neveiksmÄm un ne vÄrda par nÄkamajÄm. Å Ä« ir lieliska iespÄja organizÄcijai pÄriet no aizsardzÄ«bas uz uzbrukumu. Un izstrÄdÄtÄjiem un produktu vadÄ«tÄjiem bÅ«s tÄdas paÅ”as cerÄ«bas un skaidri mÄrÄ·i. Lieta - CASE (:wink:) - ir skaidrs katram paziÅojumam.
PaziÅojumi, kuru pamatÄ ir iemesls, ir pieļaujami mÄrenÄ«bÄ
DažkÄrt mÅ«su sistÄma mums atstÄj maz izvÄles saistÄ«bÄ ar paziÅojumiem, kuru pamatÄ ir iemesls. Un dažreiz dežurÄjoÅ”ie lieliski saprot, ka simptoms noteikti novedÄ«s pie neveiksmes, un tÄpÄc tam ir praktiska vÄrtÄ«ba. VarbÅ«t jÅ«s vienkÄrÅ”i nezinÄt, kas notiek, un iestatÄt paziÅojumus, lai bÅ«tu droŔībÄ. Cerams, ka Ŕī darbÄ«ba ir Ä«slaicÄ«ga, lÄ«dz mÄs varÄsim mainÄ«t sistÄmu, lai atrisinÄtu veiktspÄjas problÄmu.
Risinot Ŕīs situÄcijas, paturiet prÄtÄ citus CASE komponentus. Tas, ka tas ir Ä«slaicÄ«gi, nenozÄ«mÄ, ka varat beigt domÄt ar galvu.
NovÄrtÄts - vÄrtÄjums
JebkÄdas izmaiÅas sistÄmÄ (jauns kods, jauna infrastruktÅ«ra, jebkas jauns) paplaÅ”ina kļūdu loku (Kuks, 3).4 Vai Å”is paziÅojums joprojÄm darbojas, kÄ paredzÄts? Skaidri un aktuÄli sistÄmu mentÄlie modeļi un pieredze, reaÄ£Äjot uz dažiem atbalsta paziÅojumiem preventÄ«va pieeja - Ŕīs ir galvenÄs iezÄ«mes uz mÄcÄ«Å”anos orientÄta organizÄcija. SistÄmu defekti nepÄrtraukti attÄ«stÄs, un mums tiem ir jÄseko lÄ«dzi.
Jums pastÄvÄ«gi jÄnovÄrtÄ katra paziÅojuma kvalitÄte, lai nodroÅ”inÄtu, ka tie darbojas, kÄ paredzÄts. CienÄ«jamie vadÄ«tÄji! JÅ«su komandÄm bÅ«s daudz vieglÄk, ja palÄ«dzÄsiet izveidot Å”o procesu! Å eit ir dažas novÄrtÄÅ”anas idejas:
Izmantojiet haosa inženierija, spÄļu dienas vai citas paziÅojumu pÄrbaudes metodes. Komanda to var izdarÄ«t pati, nepaļaujoties uz smagu incidentu pÄrvaldÄ«bas sistÄmu!
Iekļaujiet savÄ incidentu pÄrvaldÄ«bas programmÄ visu ar incidentiem saistÄ«to paziÅojumu apkopoÅ”anu. AtzÄ«mÄjiet kÄ noderÄ«gus, kaitÄ«gus, nepiemÄrotus, neskaidrus utt. Izmantojiet tos kÄ atsauksmes.
Pareizie paziÅojumi tiek aktivizÄti reti un tiek rÅ«pÄ«gi pÄrbaudÄ«ti. PÄrliecinieties, vai visas saites darbojas, norÄda uz pareizo kontekstu utt.
Ja paziÅojums nekad netiek aktivizÄts vai tiek aktivizÄts pÄrÄk bieži, kaut kas ar to nav kÄrtÄ«bÄ. Labojiet vai noÅemiet to. Uzmanieties no pÄrmÄrÄ«gas pasivitÄtes vai aktivitÄtes!
Iestatiet paziÅojumu laikspiedolus ar derÄ«guma termiÅu. Ja derÄ«guma termiÅÅ” ir beidzies, novÄrtÄjiet paziÅojumu, izmantojot CASE metodi, un atjauniniet laika zÄ«mogu. TÄpat kÄ pÄrtikai, regulÄri pÄrbaudiet derÄ«guma termiÅu.
VienkÄrÅ”ojiet paziÅojumu uzlaboÅ”anas procesu. Izmantojiet uzraudzÄ«bu kÄ kodu un uzglabÄjiet paziÅojumus Git repozitorijÄ. IzvilkÅ”anas pieprasÄ«jumi palÄ«dz piesaistÄ«t komandu un sniegt jums iepriekÅ”Äjo paziÅojumu vÄsturi. Un jÅ«s vairs nebaidÄ«sities mainÄ«t paziÅojumus vai lÅ«gt atļauju tiem, kas par tiem ir atbildÄ«gi.
Iestatiet atsauksmes par paziÅojumiem, pat ja tas ir vienkÄrÅ”i Google veidlapa, lai dežuranti atzÄ«mÄtu paziÅojumus kÄ nederÄ«gus vai uzmÄcÄ«gus. Ievietojiet saiti vai aicinÄjumu uz darbÄ«bu paÅ”Ä paziÅojumÄ un regulÄri pÄrskatiet savas atsauksmes.
Ieviesiet kolektÄ«vÄ noteikumu ā ļaujiet dežurÄjoÅ”ajiem strÄdÄt, lai atvieglotu pienÄkumu veikÅ”anu, kad darba ir maz. Lai viss pÄc tevis ir mazliet labÄks nekÄ bija iepriekÅ”.
SecinÄjums
Es uzskatu, ka CASE metode palÄ«dz izstrÄdÄtÄjiem un organizÄcijÄm apspriest automatizÄtu paziÅojumu iestatÄ«Å”anu un nosÅ«tÄ«Å”anu. Viens izstrÄdÄtÄjs var sÄkt novÄrtÄt paziÅojumus, izmantojot CASE metodi, un pÄc tam visa organizÄcija pievienosies citiem izstrÄdÄtÄjiem, pÄrvaldÄ«bas un incidentu pÄrvaldÄ«bas programmÄm, lai paziÅojumi bÅ«tu labÄ formÄ. Tam nav nepiecieÅ”ami Ä«paÅ”i instrumenti vai sarežģīti procesi.
Visai nozarei dežūras laikÄ ir jÄdomÄ par cilvÄcisko faktoru, nezaudÄjot visaugstÄko klientu apkalpoÅ”anu. Visus Å”os rÄ«kus un prakses var un vajadzÄtu uzlabot. Es ceru, ka CASE metode palÄ«dzÄs Å”ajÄ jautÄjumÄ.