Kif qattajt ġimgħa bħala intern inġinier SRE. Dmir minn għajnejn inġinier tas-softwer

Kif qattajt ġimgħa bħala intern inġinier SRE. Dmir minn għajnejn inġinier tas-softwer

SRE inġinier - trainee

L-ewwel, ħalluni nintroduċi ruħi. jien - @tristan.read, inġinier front-end fil-grupp Monitor::Saħħa GitLab. Il-ġimgħa li għaddiet kelli l-unur li nagħmel intern ma' wieħed mill-inġiniera tagħna tal-SRE on-call. L-għan kien li josserva kif l-uffiċjal fuq ix-xogħol wieġeb għall-inċidenti ta’ kuljum u jikseb esperjenza fil-ħajja reali fuq ix-xogħol. Nixtiequ li l-inġiniera tagħna jifhmu aħjar il-ħtiġijiet tal-utent funzjonijiet Monitor::Saħħa.

Kelli nsegwi l-inġinier SRE kullimkien għal ġimgħa. Jiġifieri, kont preżenti waqt il-konsenja, immonitorjajt l-istess kanali ta 'twissija u rrispondejt għall-inċidenti jekk u meta seħħew.

Inċidenti

Kien hemm 2 inċidenti fi żmien ġimgħa.

1. Cryptominer

GitLab.com ra qabża fl-użu nhar l-Erbgħa GitLab Runner'a, ikkawżat minn tentattivi biex tuża l-minuti tar-runner biex minjiera l-munita kriptografika. L-inċident ġie ttrattat bl-użu tal-għodda tan-newtralizzazzjoni tal-ksur tagħna stess, li twaqqaf il-kompiti tar-runner u tħassar il-proġett u l-kont assoċjat miegħu.

Kieku dan l-avveniment ma kienx innutat, għodda awtomatizzata kienet taqbadha, iżda f'dan il-każ, l-inġinier SRE innota l-ksur l-ewwel. Inħoloq kompitu ta 'inċident, iżda l-informazzjoni dwaru hija magħluqa.

2. Degradazzjoni tal-prestazzjoni tal-applikazzjonijiet Kanarji u Ewlenin

L-inċident kien ikkawżat minn tnaqqis fir-ritmu u frekwenza akbar ta 'żbalji fl-applikazzjonijiet tal-kanarji u tal-web prinċipali fuq Gitlab.com. Diversi valuri Apdex ġew miksura.

Kompitu tal-inċident miftuħ: https://gitlab.com/gitlab-com/gl-infra/production/issues/1442

Sejbiet ewlenin

Hawn huma ftit affarijiet li tgħallimt matul il-ġimgħa tiegħi fuq ix-xogħol.

1. L-allerti huma l-aktar utli meta jinstabu devjazzjonijiet min-norma.

It-twissijiet jistgħu jinqasmu f'diversi tipi:

  • Twissijiet ibbażati fuq ċertu valur limitu, bħal "10 5xx żbalji seħħew kull sekonda."
  • Twissijiet li fihom il-limitu huwa valur perċentwali bħal "frekwenza ta' żbalji 5xx għal kull 10% tal-volum totali ta' talbiet f'ħin partikolari."
  • Twissijiet ibbażati fuq medja storika bħal "żbalji 5xx fid-90 perċentil".

B'mod ġenerali, it-tipi 2 u 3 huma aktar utli għall-SREs fuq xogħol, peress li jiżvelaw devjazzjonijiet min-norma fil-proċess.

2. Ħafna twissijiet qatt ma jeskalaw għal inċidenti.

L-inġiniera SR jittrattaw fluss kostanti ta 'twissijiet, li ħafna minnhom mhumiex fil-fatt kritiċi.

Allura għaliex ma tillimitax it-twissijiet tiegħek għal dawk verament importanti biss? B'dan l-approċċ, madankollu, inti tista 'ma tirrikonoxxix is-sintomi bikrija ta' dak li se snowball fi problema reali li thedded ħsara kbira.

Ix-xogħol tal-SRE on-call huwa li jiddetermina liema twissijiet fil-fatt jindikaw xi ħaġa serja, u jekk hemmx bżonn li jiġu eskalati u trattati. Nissuspetta li dan huwa wkoll minħabba l-inflessibbiltà tat-twissijiet: ikun aħjar li jkun hemm diversi livelli jew modi "intelliġenti" biex jiġu kkonfigurati twissijiet skont is-sitwazzjoni deskritta hawn fuq.

Suġġeriment għall-karatteristiċi: https://gitlab.com/gitlab-org/gitlab/issues/42633

3. L-SREs tagħna fuq xogħol jużaw ħafna għodod.

Intern:

  • Proġett infra GitLab: runbooks jgħixu hawn, assenjazzjonijiet ta 'xift/ġimgħa, kompiti ta' rispons għall-inċidenti.
  • Kwistjonijiet ta' GitLab: Investigazzjonijiet, reviżjonijiet, u manutenzjoni huma wkoll ssorveljati fi kwistjonijiet.
  • Tikketti GitLab: Il-kompiti ta 'awtomazzjoni huma mnedija bl-użu ta' tikketti speċifiċi, li l-bots jużaw biex isegwu l-attività tal-kompitu.

Esterni:

  • PagerDuty: Twissijiet
  • Slack: Il-fluss tal-messaġġ PagerDuty/AlertManager imur hawn. Integrazzjoni ma 'kmandi slash biex twettaq varjetà ta' kompiti, bħall-għeluq ta 'twissija jew teskala għal inċident.
  • Grafana: viżwalizzazzjoni tal-metriċi b'fokus fuq tendenzi fit-tul.
  • Kibana: Jagħti tfittxija ta 'viżwalizzazzjoni/log, abbiltà li tħaffer aktar fil-fond f'avvenimenti speċifiċi.
  • Zoom: Hemm "breakout room" li taħdem kontinwament f'Zoom. Dan jippermetti lill-inġiniera tal-SRE biex jiddiskutu malajr avvenimenti mingħajr ma jaħlu ħin prezzjuż billi joħolqu kamra u jgħaqqdu l-parteċipanti.

U ħafna ħafna oħrajn.

4. Il-monitoraġġ ta 'GitLab.com ma' GitLab huwa punt wieħed ta 'falliment

Jekk GitLab.com jesperjenza qtugħ kbir tas-servizz, ma rridux li dan ikollu impatt fuq il-kapaċità tagħna li nsolvu l-kwistjoni. Jista 'jitwaqqaf billi titnieda it-tieni istanza ta' GitLab biex timmaniġġja GitLab.com. Fil-fatt, dan diġà jaħdem għalina: https://ops.gitlab.net/.

5. Ftit karatteristiċi li għandek tikkunsidra li żżid ma 'GitLab

  • Editjar tal-kompitu multi-utenti, simili għal Google Docs. Dan jgħin fil-kompiti dwar l-inċidenti waqt avveniment, kif ukoll il-kompiti dwar id-debriefing. Fiż-żewġ każijiet, diversi parteċipanti jista 'jkollhom bżonn iżidu xi ħaġa f'ħin reali.
  • Aktar webhooks għall-kompiti. Il-ħila li tmexxi passi differenti tal-fluss tax-xogħol GitLab minn ġewwa se tgħin biex tnaqqas id-dipendenza tiegħek fuq l-integrazzjonijiet Slack. Pereżempju, il-kapaċità li tippermetti twissija f'PagerDuty permezz ta 'kmand slash fi kwistjoni GitLab.
    Konklużjoni

L-inġiniera tal-SRE għandhom żmien diffiċli b'ħafna kumplessitajiet. Ikun kbir li tara aktar prodotti GitLab jindirizzaw dawn il-kwistjonijiet. Diġà qed naħdmu fuq xi żidiet għall-prodott li se jagħmlu l-flussi tax-xogħol imsemmija hawn fuq aktar faċli. Dettalji disponibbli fuq Taqsima tal-Viżjoni tal-Prodott Ops.

Qed nespandu t-tim fl-2020 biex inġibu dawn il-karatteristiċi kbar kollha flimkien. Jekk interessat, jekk jogħġbok iċċekkja postijiet vakanti, u tħossok liberu li tikkuntattja lil xi ħadd fit-tim tagħna bi kwalunkwe mistoqsija.

Sors: www.habr.com

Żid kumment