ProHoster > blog > Amministrazzjoni > Kif qattajt ġimgħa bħala intern inġinier SRE. Dmir minn għajnejn inġinier tas-softwer
Kif qattajt ġimgħa bħala intern inġinier SRE. Dmir minn għajnejn inġinier tas-softwer
SRE inġinier - trainee
L-ewwel, ħalluni nintroduċi ruħi. jien - @tristan.read, inġinier front-end fil-grupp Monitor::Saħħa GitLab. Il-ġimgħa li għaddiet kelli l-unur li nagħmel intern ma' wieħed mill-inġiniera tagħna tal-SRE on-call. L-għan kien li josserva kif l-uffiċjal fuq ix-xogħol wieġeb għall-inċidenti ta’ kuljum u jikseb esperjenza fil-ħajja reali fuq ix-xogħol. Nixtiequ li l-inġiniera tagħna jifhmu aħjar il-ħtiġijiet tal-utent funzjonijiet Monitor::Saħħa.
Kelli nsegwi l-inġinier SRE kullimkien għal ġimgħa. Jiġifieri, kont preżenti waqt il-konsenja, immonitorjajt l-istess kanali ta 'twissija u rrispondejt għall-inċidenti jekk u meta seħħew.
Inċidenti
Kien hemm 2 inċidenti fi żmien ġimgħa.
1. Cryptominer
GitLab.com ra qabża fl-użu nhar l-Erbgħa GitLab Runner'a, ikkawżat minn tentattivi biex tuża l-minuti tar-runner biex minjiera l-munita kriptografika. L-inċident ġie ttrattat bl-użu tal-għodda tan-newtralizzazzjoni tal-ksur tagħna stess, li twaqqaf il-kompiti tar-runner u tħassar il-proġett u l-kont assoċjat miegħu.
Kieku dan l-avveniment ma kienx innutat, għodda awtomatizzata kienet taqbadha, iżda f'dan il-każ, l-inġinier SRE innota l-ksur l-ewwel. Inħoloq kompitu ta 'inċident, iżda l-informazzjoni dwaru hija magħluqa.
2. Degradazzjoni tal-prestazzjoni tal-applikazzjonijiet Kanarji u Ewlenin
L-inċident kien ikkawżat minn tnaqqis fir-ritmu u frekwenza akbar ta 'żbalji fl-applikazzjonijiet tal-kanarji u tal-web prinċipali fuq Gitlab.com. Diversi valuri Apdex ġew miksura.
Hawn huma ftit affarijiet li tgħallimt matul il-ġimgħa tiegħi fuq ix-xogħol.
1. L-allerti huma l-aktar utli meta jinstabu devjazzjonijiet min-norma.
It-twissijiet jistgħu jinqasmu f'diversi tipi:
Twissijiet ibbażati fuq ċertu valur limitu, bħal "10 5xx żbalji seħħew kull sekonda."
Twissijiet li fihom il-limitu huwa valur perċentwali bħal "frekwenza ta' żbalji 5xx għal kull 10% tal-volum totali ta' talbiet f'ħin partikolari."
Twissijiet ibbażati fuq medja storika bħal "żbalji 5xx fid-90 perċentil".
B'mod ġenerali, it-tipi 2 u 3 huma aktar utli għall-SREs fuq xogħol, peress li jiżvelaw devjazzjonijiet min-norma fil-proċess.
2. Ħafna twissijiet qatt ma jeskalaw għal inċidenti.
L-inġiniera SR jittrattaw fluss kostanti ta 'twissijiet, li ħafna minnhom mhumiex fil-fatt kritiċi.
Allura għaliex ma tillimitax it-twissijiet tiegħek għal dawk verament importanti biss? B'dan l-approċċ, madankollu, inti tista 'ma tirrikonoxxix is-sintomi bikrija ta' dak li se snowball fi problema reali li thedded ħsara kbira.
Ix-xogħol tal-SRE on-call huwa li jiddetermina liema twissijiet fil-fatt jindikaw xi ħaġa serja, u jekk hemmx bżonn li jiġu eskalati u trattati. Nissuspetta li dan huwa wkoll minħabba l-inflessibbiltà tat-twissijiet: ikun aħjar li jkun hemm diversi livelli jew modi "intelliġenti" biex jiġu kkonfigurati twissijiet skont is-sitwazzjoni deskritta hawn fuq.
Proġett infra GitLab: runbooks jgħixu hawn, assenjazzjonijiet ta 'xift/ġimgħa, kompiti ta' rispons għall-inċidenti.
Kwistjonijiet ta' GitLab: Investigazzjonijiet, reviżjonijiet, u manutenzjoni huma wkoll ssorveljati fi kwistjonijiet.
Tikketti GitLab: Il-kompiti ta 'awtomazzjoni huma mnedija bl-użu ta' tikketti speċifiċi, li l-bots jużaw biex isegwu l-attività tal-kompitu.
Esterni:
PagerDuty: Twissijiet
Slack: Il-fluss tal-messaġġ PagerDuty/AlertManager imur hawn. Integrazzjoni ma 'kmandi slash biex twettaq varjetà ta' kompiti, bħall-għeluq ta 'twissija jew teskala għal inċident.
Grafana: viżwalizzazzjoni tal-metriċi b'fokus fuq tendenzi fit-tul.
Kibana: Jagħti tfittxija ta 'viżwalizzazzjoni/log, abbiltà li tħaffer aktar fil-fond f'avvenimenti speċifiċi.
Zoom: Hemm "breakout room" li taħdem kontinwament f'Zoom. Dan jippermetti lill-inġiniera tal-SRE biex jiddiskutu malajr avvenimenti mingħajr ma jaħlu ħin prezzjuż billi joħolqu kamra u jgħaqqdu l-parteċipanti.
U ħafna ħafna oħrajn.
4. Il-monitoraġġ ta 'GitLab.com ma' GitLab huwa punt wieħed ta 'falliment
Jekk GitLab.com jesperjenza qtugħ kbir tas-servizz, ma rridux li dan ikollu impatt fuq il-kapaċità tagħna li nsolvu l-kwistjoni. Jista 'jitwaqqaf billi titnieda it-tieni istanza ta' GitLab biex timmaniġġja GitLab.com. Fil-fatt, dan diġà jaħdem għalina: https://ops.gitlab.net/.
5. Ftit karatteristiċi li għandek tikkunsidra li żżid ma 'GitLab
Editjar tal-kompitu multi-utenti, simili għal Google Docs. Dan jgħin fil-kompiti dwar l-inċidenti waqt avveniment, kif ukoll il-kompiti dwar id-debriefing. Fiż-żewġ każijiet, diversi parteċipanti jista 'jkollhom bżonn iżidu xi ħaġa f'ħin reali.
Aktar webhooks għall-kompiti. Il-ħila li tmexxi passi differenti tal-fluss tax-xogħol GitLab minn ġewwa se tgħin biex tnaqqas id-dipendenza tiegħek fuq l-integrazzjonijiet Slack. Pereżempju, il-kapaċità li tippermetti twissija f'PagerDuty permezz ta 'kmand slash fi kwistjoni GitLab.
Konklużjoni
L-inġiniera tal-SRE għandhom żmien diffiċli b'ħafna kumplessitajiet. Ikun kbir li tara aktar prodotti GitLab jindirizzaw dawn il-kwistjonijiet. Diġà qed naħdmu fuq xi żidiet għall-prodott li se jagħmlu l-flussi tax-xogħol imsemmija hawn fuq aktar faċli. Dettalji disponibbli fuq Taqsima tal-Viżjoni tal-Prodott Ops.
Qed nespandu t-tim fl-2020 biex inġibu dawn il-karatteristiċi kbar kollha flimkien. Jekk interessat, jekk jogħġbok iċċekkja postijiet vakanti, u tħossok liberu li tikkuntattja lil xi ħadd fit-tim tagħna bi kwalunkwe mistoqsija.