Giunsa ko usa ka SRE engineer trainee sulod sa usa ka semana. Katungdanan pinaagi sa mga mata sa usa ka software engineer

Giunsa ko usa ka SRE engineer trainee sulod sa usa ka semana. Katungdanan pinaagi sa mga mata sa usa ka software engineer

SRE engineer - trainee

Una, magpaila ko sa akong kaugalingon. ako- @tristan.basaha, front-end engineer sa grupo Monitor:: Panglawas GitLab. Sa miaging semana ako adunay kadungganan nga mag-interning sa usa sa among on-call nga mga inhenyero sa SRE. Ang tumong mao ang pag-obserbar kung giunsa pagtubag sa on-duty nga opisyal ang mga insidente matag adlaw ug makaangkon og tinuod nga kasinatian sa kinabuhi sa trabaho. Gusto namon nga mas masabtan sa among mga inhenyero ang mga panginahanglanon sa tiggamit gimbuhaton Monitor:: Panglawas.

Kinahanglan kong sundan ang inhenyero sa SRE bisan asa sulod sa usa ka semana. Sa ato pa, naa ko sa handover, gimonitor ang parehas nga alert channel ug gitubag ang mga insidente kung ug kanus-a kini nahitabo.

Mga panghitabo

Adunay 2 ka insidente sulod sa usa ka semana.

1. Cryptominer

Ang GitLab.com nakakita sa usa ka paglukso sa paggamit kaniadtong Miyerkules GitLab Runner'a, tungod sa mga pagsulay sa paggamit sa mga minuto sa runner sa pagmina sa cryptocurrency. Giatubang ang insidente gamit ang among kaugalingon nga tool sa neutralisasyon sa paglapas, nga nagpahunong sa mga buluhaton sa runner ug nagtangtang sa proyekto ug account nga may kalabotan niini.

Kung kini nga panghitabo wala pa namatikdan, usa ka automated nga himan ang makadakop niini, apan sa kini nga kaso, ang SRE engineer una nga nakamatikod sa paglapas. Nahimo ang usa ka buluhaton sa insidente, apan sirado ang impormasyon bahin niini.

2. Pagkadaot sa performance sa Canary ug Main nga mga aplikasyon

Ang insidente tungod sa mga paghinay ug nagkadaghan nga mga kasaypanan sa canary ug nag-unang mga aplikasyon sa web sa Gitlab.com. Daghang mga kantidad sa Apdex ang gilapas.

Bukas nga buluhaton sa insidente: https://gitlab.com/gitlab-com/gl-infra/production/issues/1442

Yawi nga Pagpangita

Ania ang pipila ka mga butang nga akong nakat-unan sa akong semana sa duty.

1. Ang mga alerto labing mapuslanon kung makamatikod sa mga pagtipas gikan sa naandan.

Ang mga alerto mahimong bahinon sa daghang mga tipo:

  • Ang mga alerto base sa usa ka piho nga kantidad sa threshold, sama sa "10 5xx mga sayup nga nahitabo matag segundo."
  • Mga alerto diin ang threshold kay porsyento nga kantidad sama sa "frequency of 5xx errors kada 10% sa kinatibuk-ang gidaghanon sa mga hangyo sa gihatag nga panahon."
  • Mga alerto base sa makasaysayanong average sama sa "5xx errors sa 90th percentile".

Sa kinatibuk-an, ang mga tipo 2 ug 3 mas mapuslanon alang sa mga SRE nga nag-duty, tungod kay kini nagpadayag sa mga pagtipas gikan sa naandan sa proseso.

2. Daghang mga alerto ang dili mosangko sa mga insidente.

Ang mga inhenyero sa SR nag-atubang sa kanunay nga pag-agos sa mga alerto, kadaghanan niini dili gyud kritikal.

Busa nganong dili limitahan ang imong mga alerto sa mga importante lang? Uban niini nga pamaagi, bisan pa niana, dili nimo mahibal-an ang unang mga simtomas kung unsa ang mahimong snowball nga usa ka tinuod nga problema nga naghulga sa dagkong kadaot.

Ang on-call nga trabaho sa SRE mao ang pagtino kung unsang mga alerto ang tinuod nga nagpaila sa usa ka butang nga seryoso, ug kung kini kinahanglan nga padak-on ug atubangon. Nagduda ko nga tungod usab kini sa pagkadili mabag-o sa mga alerto: mas maayo kung adunay daghang lebel o "smart" nga mga paagi aron ma-configure ang mga alerto uyon sa sitwasyon nga gihulagway sa ibabaw.

Sugyot sa Feature: https://gitlab.com/gitlab-org/gitlab/issues/42633

3. Ang atong mga SRE nga nag-duty naggamit ug daghang gamit.

Sulod:

  • GitLab infra nga proyekto: ang mga runbook nagpuyo dinhi, pagbalhin/semana nga mga buluhaton, mga buluhaton sa pagtubag sa insidente.
  • Mga isyu sa GitLab: Ang mga imbestigasyon, pagsusi, ug pagmentinar gisubay usab sa mga isyu.
  • Mga label sa GitLab: Ang mga buluhaton sa automation gilunsad gamit ang piho nga mga label, nga gigamit sa mga bot aron masubay ang kalihokan sa buluhaton.

Sa gawas:

  • PagerDuty: Mga Alerto
  • Slack: PagerDuty/AlertManager nga dagan sa mensahe moadto dinhi. Pag-integrate sa mga slash command aron mahimo ang lainlaing mga buluhaton, sama sa pagsira sa usa ka alerto o pag-uswag sa usa ka insidente.
  • Grafana: pagtan-aw sa mga sukatan nga adunay pagpunting sa mga dugay nga uso.
  • Kibana: Naghatag og visualization/log search, abilidad sa pagkalot sa mas lawom nga mga panghitabo.
  • Zoom: Adunay kanunay nga nagdagan nga "breakout room" sa Zoom. Gitugotan niini ang mga inhenyero sa SRE nga dali nga hisgutan ang mga panghitabo nga wala mag-usik og bililhon nga oras sa paghimo og kwarto ug pag-link sa mga partisipante.

Ug daghan pang uban.

4. Ang pagmonitor sa GitLab.com uban sa GitLab usa ka punto sa kapakyasan

Kung ang GitLab.com makasinati og dakong pagkawala sa serbisyo, dili namo gusto nga makaapekto kini sa among abilidad sa pagsulbad sa isyu. Mahimo kining hunongon pinaagi sa paglansad sa ikaduhang higayon sa GitLab aron pagdumala sa GitLab.com. Sa tinuud, kini magamit na alang kanamo: https://ops.gitlab.net/.

5. Pipila ka bahin nga ikonsiderar nga idugang sa GitLab

  • Pag-edit sa buluhaton sa daghang tiggamit, susama sa Google Docs. Makatabang kini sa mga buluhaton sa mga insidente sa panahon sa usa ka kalihokan, ingon man mga buluhaton sa debriefing. Sa duha nga mga kaso, daghang mga partisipante ang kinahanglan nga magdugang usa ka butang sa tinuud nga oras.
  • Daghang mga webhook alang sa mga buluhaton. Ang katakus sa pagpadagan sa lainlaing mga lakang sa daloy sa trabaho sa GitLab gikan sa sulod makatabang sa pagpakunhod sa imong pagsalig sa mga panagsama sa Slack. Pananglitan, ang abilidad sa pagtugot sa usa ka alerto sa PagerDuty pinaagi sa usa ka slash command sa usa ka isyu sa GitLab.
    konklusyon

Ang mga inhenyero sa SRE naglisud sa daghang mga pagkakomplikado. Nindot nga makita ang daghang mga produkto sa GitLab nga nagsulbad sa kini nga mga isyu. Nagtrabaho na kami sa pipila ka mga pagdugang sa produkto nga makapasayon ​​sa mga workflow nga gihisgutan sa ibabaw. Ang mga detalye anaa sa Ops Product Panan-awon seksyon.

Gipalapad namo ang team sa 2020 aron mahiusa ang tanan niining nindot nga mga feature. Kung interesado, palihug tan-awa mga bakante, ug ayaw pagduhaduha sa pagkontak ni bisan kinsa sa among team sa bisan unsang pangutana.

Source: www.habr.com

Idugang sa usa ka comment