Pamaagi sa KASO: tawhanon nga pagmonitor

Pamaagi sa KASO: tawhanon nga pagmonitor
Dziiiiiin! Alas 3 na sa buntag, nagdamgo ka ug kalit nga nitawag. Nag-duty ka karong semanaha, ug dayag nga adunay nahitabo. Ang awtomatikong sistema nagtawag aron mahibal-an kung unsa ang sayup. Kini usa ka importante nga aspeto sa pagdumala sa modernong mga sistema sa kompyuter, apan atong tan-awon kon unsaon paghimo sa mga pahibalo nga mas maayo alang sa mga tawo.

Pagkilala sa pilosopiya sa pagmonitor, natawo sa daghang mga dekada sa akong mga katungdanan sa lainlaing mga tim sa pag-monitor. Naimpluwensyahan siya sa tinuud nga Bibliya gikan ni Rob Evashchuk Ang Akong Pilosopiya sa Pag-alerto (My Notification Philosophy) nalakip sa libro sa Google SRE, ug libro ni John Alspaugh Mga Konsiderasyon alang sa Alerto nga Disenyo (Mga nota sa pag-set up sa mga alerto).

Kelly Dunn, Arijit Mukheryi ΠΈ Maxim Petazzoni β€” salamat sa imong tabang sa pag-edit sa post.

Unsa ang CASE?

Nakahukom ko nga maghimo ug nindot nga abbreviation sama sa Pamaagi sa PAGGAMIT ni Brendan Gregg o RED nga pamaagi ni Tom Wilkie. Gitawag ko kini CASE nga pamaagi. Gihubit niya ang upat ka mga punto nga hatagan pagtagad kung nagtrabaho uban ang awtomatikong pag-monitor:

Kung mogamit ka sa CASE, imong gitagad ang mga pahibalo nga adunay usa ka himsog nga pagkawalay pagtagad ug dili pukawon ang mga tawo sa gabii. Ang pagmonitor kinahanglan nga regular nga susihon alang sa kapuslanan ug pagkaepektibo. Kung ang usa ka tawo makadawat sa pahibalo, sila adunay mas maayo nga mga modelo sa pangisip ug dugang nga pagsalig.

Aron mas sayon ​​ang paghinumdom, hunahunaa nga kinahanglan nimo ang usa ka KASO [nga mao, usa ka kaso, usa ka rason - nota sa tighubad] aron hatagan og katarungan ang matag alerto. :sunglass:

Ug nganong ingon ani tanan?

Ang pag-duty mahimong sakit. Sa daghang rason. Ug ang CASE dili magwagtang kanilang tanan. Apan uban niini, makamata ka sa gabii alang sa mas maayo nga mga pahibalo. Kini nga pamaagi naglangkob sa lainlaing mga proseso sa organisasyon nga makatabang usab niini nga butang.

Ang katahum sa RED ug USE nga mga pamaagi mao nga sa ilang tabang dili lamang kita makahibalo unsaon pagtrabaho, apan nagsulti usab sa samang pinulongan sa usag usa. Ang akong paglaum mao nga ang CASE nga pamaagi makapasayon ​​sa paghisgot sa mga pahibalo nga nanalipod sa atong mga sistema apan nagpadayon sa atong mga kauban nga busy.

Ang punto mao nga kinahanglan nimo nga maghimo usa ka kultura sa imong organisasyon diin ang mga pahibalo gitagad nga adunay usa ka himsog nga pagkawalay pagtagad. Ang mga pahibalo mahimo’g himuon alang sa usa ka piho nga katuyoan, apan dili kini usa ka kamatuoran nga dili sila mawad-an og bili sa ulahi. Nganong gi-set up namo kini nga pahibalo? Unsa ka dugay nga gibag-o ang mga pamatasan niini? Uban sa CASE, kini nga mga pangutana mahimong matubag.

Konteksto-Mabug-at - pagbugkos sa konteksto

Ang 3 am dili ang pinakamaayong panahon sa pagbasa sa mga mensahe nga adunay daghang maalamon nga mga pulong. Aron epektibong makatubag, kinahanglan nimo ang impormasyon. Sa tinuud, kinahanglan kini nga kasayuran bahin sa usa ka piho nga isyu, diin klaro dayon ang konteksto, ug kinahanglan nga i-configure ang mga pahibalo aron mahimo kini. Kini mao ang "obserbasyon" ug "orientasyon" gikan sa OODA loop. Dili usa ka kaulaw ang paggahin ug oras sa kini nga pag-setup, tungod kay ang kanunay nga pagkabalda sa usa ka tawo labi ka mahal. Respetohan nato ang usag usa.

Pamaagi sa KASO: tawhanon nga pagmonitor
Daghan ang tinubdan sa mga problema. Labi na sa mga multo.

Unsaon nako pagtabang ang opisyal sa katungdanan? Ang una nga butang nga nakita sa opisyal sa katungdanan mao ang usa ka pahibalo, mao nga iyang gitukod ang tanan nga mga hypotheses base niini. Dayon iyang gitan-aw ang mga instruksyon ug mga dashboard, apan kanunay ba nga adunay datos sa usa ka piho nga pahibalo, ug dili lamang sa kinatibuk-ang impormasyon? Gitambagan ni Alspaugh ang "paghunahuna kung giunsa nimo paghubad o pagtubag ang pahibalo" (slide 29)1. Ang usa ka maayong pahibalo naka-focus sa tawo nga nag-duty, dili lang gi-configure sa usa ka threshold.

Mao nga ania ang pipila ka mga ideya kung giunsa pagpauswag ang konteksto sa pagpahibalo:

  • Ipakita sa user ang usa ka butang nga mapuslanon ug espesyal nga gibuhat, ug dili lang ordinaryo nga mga panudlo o usa ka dashboard. Kaniadto, ang mga lalaki ug ako naggamit sa mga dashboard sa imbestigasyon nga gi-configure alang sa piho nga mga pahibalo. Makatabang kini kung nahibal-an ang problema, apan makapalibog lamang sa uban. Kinahanglan nga mangita kita og balanse dinhi.
  • Sultihi kami bahin sa kasaysayan sa pahibalo: bag-o ba kini? Kanunay ba kini nga nagtrabaho? Seasonal ba kini?
  • Ipakita ang bag-o nga mga pagbag-o sa kahimtang sa sistema. Aduna bay nausab bag-o lang? (Pananglitan, pag-deploy o pagpagana/pag-disable sa gamit.)
  • Ipakita ang mga relasyon ug paghatag og impormasyon alang sa mental nga modelo: ang mga dependency sa sistema kinahanglan nga tin-aw nga makita, mas maayo nga adunay timailhan sa pagpaandar.
  • Dali nga ikonektar ang tiggamit sa team: makita ba nila ang nagpadayon nga mga insidente o mahibal-an ba nila kung kinsa pa sa kompanya ang nakadawat usa ka pahibalo? Programa pagdumala sa insidente gi-activate?

Sa tinuud, ang usa ka programa sa pagdumala sa insidente maghatag tambag kung giunsa pagpauswag ang konteksto sa pagpahibalo sa mga imbestigasyon sa insidente. Kanunay adunay butang nga trabahoon!

Maaksiyonan - praktikal nga bili

Kinahanglan ba nga buhaton sa opisyal sa katungdanan ang usa ka butang agig tubag sa pahibalo? Kung wala ka kinahanglan nga buhaton o dili klaro kung unsa ang buhaton, nganong gipukaw nimo siya? Kinahanglan nimong likayan ang mga pahibalo nga makapasuko sa mga naa sa katungdanan ug wala magkinahanglan og aksyon.

View post sa imgur.com

Unsa ang akong buhaton? Unsa imong gusto?

Kaniadto, kung ang mga sistema yano ug gagmay ang mga team, nag-set up kami og monitoring aron lang magpabilin sa ibabaw sa mga butang. Ang pagpahibalo nga ang load sa heap mitaas maghatag kanato og konteksto kung ang serbisyo sa ulahi dili molihok. Sa usa ka dako nga sukod, ang ingon nga mga pahibalo makamugna lamang ug kalibog tungod kay ang among mga sistema kanunay nga naglihok sa usa ka kahimtang sa pagkadaot sa lainlaing kagrabe. Kini dali nga mosangpot sa kakapoy gikan sa mga pahibalo ug, siyempre, sa pagkawala sa pagkasensitibo. Busa, ang opisyal sa katungdanan wala magtagad o bisan sa pagsala sa maong mga pahibalo ug dili kanunay motubag niini kon gikinahanglan. Ayaw mahulog niini nga lit-ag! Ayaw i-set up ang tanan nga mga pahibalo sa usa ka laray ug dayon ipadala kini pinaagi sa email sa pipila nga gisalikway nga folder.

Ania kung unsa ang hitsura sa usa ka pahibalo nga adunay praktikal nga kantidad:

  • Ang usa ka pahibalo nanginahanglan aksyon imbes nga magreport lang sa mga balita.
  • Kini nga aksyon lisud o peligro nga i-automate. Kung ang usa ka aksyon mahimo nga awtomatiko, dayon i-automate kini, hunong ang pagsamok sa mga tawo!
  • Ang pahibalo naglangkob sa dinalian nga mga rekomendasyon sa porma mga kasabutan sa lebel sa serbisyo (SLA) o target sa panahon sa pagbawi (RTO). Ang opisyal sa katungdanan mahimo dayon nga ma-aktibo ang programa sa pagdumala sa insidente sa organisasyon.

Gusto nakong ipatin-aw: Wala ko nag-ingon nga ang mga pahibalo kinahanglan nga moabut lamang alang sa labing importante nga mga SLO (mga tumong sa lebel sa serbisyo) alang sa API. Ang pagmonitor sa SLO kanunay nga gibahin ug gibahin ug nanginahanglan parehas nga pamaagi sa tanan nga mga serbisyo. Klaro nga imong gisubay ang labing hinungdanon nga mga SLO alang sa mga kliyente nga nagbayad kanimo. Apan ang mga SLO sa imprastraktura, sama sa mga database, kinahanglan usab nga bantayan. Sa dili madugay kinahanglan nimo nga atubangon ang mga internal nga kustomer ug suportahan sila. Ug uban pa ad infinitum.

Gibase sa simtomas - paghatag gibug-aton sa mga sintomas

Gusto man nimo o dili, nagtrabaho ka sa usa ka distributed system (Kavaj)2. Isip resulta, mogamit ka ug lain-laing mga taktika aron mahimulag ang mga serbisyo ug mapanalipdan sila gikan sa kapakyasan (Trainor et al.)3. Ug bisan kung ang usa ka nalangan nga pagkolekta sa basura o usa ka nahunong nga pangutana sa database nagpaila sa mga problema, dili kinahanglan nga magdali aron ayohon kini kung ang mga tiggamit wala’y mga problema sa umaabot nga umaabot.

Importante kini nga mga signal ug mahimong adunay praktikal nga bili, apan kung dili kini makadisturbo sa mga tiggamit, nan dili kini dinalian nga makabalda sa tig-alagad. Ang mga pahibalo nga gibase sa hinungdan mao ang mga snapshot sa among mga modelo sa pangisip bahin sa usa ka pagkapakyas sa sistema. Mas maayo nga pagsubay sa importante nga mga sintomas kay sa pagsulay sa paglista sa tanang posibleng hinungdan sa usa ka kapakyasan.

Aron mahimong makahuluganon ang mga pahibalo, ipunting sa mga timailhan sa pasundayag, importante sa mga tiggamit. Gitawag kini ni Evashchuk nga "monitoring para sa mga tiggamit." Hinumdomi nga kini nga pilosopiya kinahanglang ipadapat sa tibuok organisasyon. Kung ang usa ka serbisyo adunay dinalian nga mga problema sa usa ka lugar nga lawom sa imprastraktura, ang angay nga grupo ang mag-atiman kanila. Ang pagpanalipod sa mga sistema gikan sa ingon nga mga kapakyasan usa ka bug-os nga bulag nga butang (Trainer et al., seksyon sa mga estratehiya alang sa pagminus sa kritikal nga pagsalig)3.

Ang mga simtomas dili ingon ka mabag-o

Gipahinumdoman ta ni Richard Cook nga ang komplikado nga mga sistema puno sa mga sayup, kakulangan ug problema4. Ang pagsulay sa paglista sa tanan nga posible nga mga hinungdan usa ka buluhaton sa Sisyphean. Gisulayan nimo nga ihulagway ang mga problema, apan kini nagbag-o sa tanang panahon. Nagtuo si Cindy Sridharan nga "ang mga sistema dili kinahanglan nga anaa sa hingpit nga kondisyon matag segundo" ug mas maayo nga gamiton ang mas tawhanon nga pamaagi ("Pag-obserbar sa mga Sistema nga Gipanagtag" (β€œPagmonitor sa Gipanagtag nga Sistema”), 7)5.

Likayi ang mga pahibalo human sa usa ka insidente

Kasagaran, ang mga pahibalo alang sa mga hinungdan gi-configure aron matul-id ang mga insidente. Ug kini nga limitado nga mga pahibalo bahin sa kamatuoran sa kung unsa ang nahitabo nagmugna usa ka sayup nga pagbati sa seguridad, tungod kay ang sistema sa matag higayon nga adunay bag-ong mga paagi aron mabungkag.

Ayaw palimbong sa hinungdan nga mga pahibalo. Mas maayo nga hunahunaon:

  • Ngano nga ang pahibalo nga gibase sa simtomas wala makamatikod sa problema?
  • Makatabang ba ang pagpauswag sa konteksto alang sa tiggamit?
  • Sa unsang paagi mapauswag ang mga himan sa pag-monitor aron mas paspas ang pagdayagnos, imbes nga magtigum og mga pahibalo bahin sa nahitabo?

Ang mga himan sa pag-monitor alang sa pagdayagnos makatabang lamang kung imong hunahunaon kini ingon usa ka paagi sa pagbalhin gikan sa sintomas ngadto sa solusyon. Kung wala kini nga feedback, bombahan ka lang sa ulahi nga mga pahibalo ug mga tsart bahin sa nangaging mga kapakyasan-ug dili usa ka pulong bahin sa umaabot. Kini usa ka maayong oportunidad alang sa usa ka organisasyon nga molihok gikan sa depensa ngadto sa pag-atake. Ug ang mga developer ug mga managers sa produkto adunay parehas nga mga gilauman ug tin-aw nga mga katuyoan. Ang kaso - CASE (:wink:) - klaro alang sa matag pahibalo.

Ang mga pahibalo nga gipasukad sa hinungdan maagwanta sa kasarangan

Usahay ang among sistema nagbilin kanamo gamay nga kapilian bahin sa mga pahibalo nga gibase sa hinungdan. Ug usahay ang mga naa sa katungdanan hingpit nga nakasabut nga ang usa ka simtomas siguradong mosangpot sa usa ka kapakyasan, ug busa adunay sulud nga praktikal nga kantidad. Tingali dili ka sigurado kung unsa ang nahitabo ug nag-set up sa mga abiso nga naa sa luwas nga bahin. Hinaot nga temporaryo lang kini nga aksyon hangtod nga mausab nato ang sistema aron masulbad ang isyu sa performance.
Ibutang sa hunahuna ang ubang mga sangkap sa CASE kung mag-atubang niini nga mga sitwasyon. Tungod kay kini temporaryo wala magpasabut nga mahimo nimong hunongon ang paghunahuna gamit ang imong ulo.

Gitimbang-timbang - ebalwasyon

Ang bisan unsang mga pagbag-o sa sistema (bag-ong code, bag-ong imprastraktura, bisan unsang bag-o) nagpalapad sa lainlaing mga kapakyasan (Cook, 3).4 Naglihok pa ba kini nga pahibalo sama sa gipaabut? Tin-aw ug kasamtangan nga mental nga mga modelo sa mga sistema ug kasinatian sa pagtubag sa pipila ka mga pahibalo sa suporta preventative nga pamaagi - kini ang mga yawe nga bahin organisasyon nga nakatuon sa pagkat-on. Ang mga depekto sa mga sistema kanunay nga nag-uswag, ug kinahanglan naton nga sundon kini.

Kinahanglan nimo nga kanunay nga susihon ang kalidad sa matag pahibalo aron masiguro nga kini molihok sama sa gipaabut. Minahal nga mga lider! Kini mahimong labi ka dali alang sa imong mga koponan kung tabangan nimo sila nga matukod kini nga proseso! Ania ang pipila ka mga ideya sa pagtasa:

  • Paggamit chaos engineering, mga adlaw sa dula o uban pang mga paagi sa pagsulay sa pagpahibalo. Ang team makahimo niini sa ilang kaugalingon nga dili kinahanglan nga mosalig sa usa ka bug-at nga sistema sa pagdumala sa insidente!
  • Iapil ang koleksyon sa tanan nga mga pahibalo nga may kalabutan sa insidente sa imong programa sa pagdumala sa insidente. Markahi nga mapuslanon, makadaot, dili angay, dili klaro, ug uban pa. Gamita kini isip feedback.
  • Ang husto nga mga pahibalo panagsa ra nga ma-trigger ug maampingon nga gisulayan. Siguruha nga ang tanan nga mga link molihok, itudlo ang husto nga konteksto, ug uban pa.
  • Kung ang usa ka pahibalo dili gyud mobuto o mosunog kanunay, adunay sayup niini. Ayuhon kini o kuhaa kini. Pagbantay sa sobra nga pagkapasibo o kalihokan!
  • Itakda ang mga timestamp sa pagpahibalo nga adunay mga petsa sa pag-expire. Kung ang petsa sa pag-expire na-expire na, susiha ang pahibalo gamit ang CASE nga pamaagi ug i-update ang timestamp. Sama sa pagkaon, susiha kanunay ang expiration date.
  • Pasimpleha ang proseso sa pagpaayo sa mga pahibalo. Gamita ang pagmonitor isip code ug mga pahibalo sa tindahan sa usa ka Git repository. Ang mga hangyo sa pagbitad makatabang sa pag-apil sa team ug maghatag kanimo usa ka kasaysayan sa nangaging mga pahibalo. Ug dili ka na mahadlok nga usbon ang mga pahibalo o mangayo og pagtugot gikan sa mga responsable alang kanila.
  • I-set up ang feedback alang sa mga pahibalo, bisan kung kini yano Google nga porma, aron ang mga opisyal sa katungdanan magtimaan sa mga pahibalo nga walay kapuslanan o makabalda. I-embed ang usa ka link o tawag sa aksyon sa pahibalo mismo ug ribyuha kanunay ang imong feedback.
  • Pagtukod og usa ka lagda sa team - pasagdi ang mga naa sa katungdanan nga magtrabaho aron mapasayon ​​ang katungdanan kung adunay gamay nga trabaho. Hinaut nga ang tanan pagkahuman nimo mahimong mas maayo kaysa kaniadto.

konklusyon

Nagtuo ko nga ang pamaagi sa CASE makatabang sa mga developer ug organisasyon nga maghisgot sa pag-set up ug pagpadala sa mga awtomatikong pahibalo. Ang usa ka developer mahimong magsugod sa pag-assess sa mga pahibalo gamit ang CASE nga pamaagi, ug unya ang tibuok organisasyon moapil sa uban nga mga developers, pagdumala, ug mga programa sa pagdumala sa insidente aron magpabilin ang mga pahibalo sa maayong porma. Wala kini magkinahanglan og bisan unsang espesyal nga himan o komplikadong proseso.

Ang tibuuk nga industriya kinahanglan nga maghunahuna bahin sa hinungdan sa tawo samtang naa sa katungdanan nga wala gisakripisyo ang labing kaayo nga serbisyo sa kustomer. Kining tanan nga mga himan ug praktis mahimo ug kinahanglan nga pauswagon. Nanghinaut ko nga ang CASE nga pamaagi makatabang niini.

Paglingaw sa gipaayo nga mga pahibalo!
Pamaagi sa KASO: tawhanon nga pagmonitor

Source: www.habr.com

Idugang sa usa ka comment