Cumu era un trainee ingegnere SRE per una settimana. Duvere attraversu l'ochji di un ingegnere di software

Cumu era un trainee ingegnere SRE per una settimana. Duvere attraversu l'ochji di un ingegnere di software

Ingegnere SRE - stagiariu

Per cumincià, lasciami presentà. I - @tristan.read, ingegnere front-end in u gruppu Monitor:: Salute GitLab. A settimana passata, aghju avutu u privilegiu di esse un internu cun unu di i nostri ingegneri SRE di turnu. L'obiettivu era di osservà ogni ghjornu cumu l'ufficiale di serviziu risponde à l'incidenti è acquistà una vera sperienza di travagliu. Vulemu chì i nostri ingegneri capiscenu megliu i bisogni di l'utilizatori funzioni Monitor:: Salute.

Aviu avutu à seguità u SRE intornu per una settimana. Vale à dì, eru prisente à u trasferimentu di u duvere, osservatu i stessi canali d'alerta è rispunniu à l'incidenti, se è quandu sò accaduti.

Incidenti

Ci hè statu 2 incidenti in una settimana.

1. Cryptominer

GitLab.com hà registratu un saltu in l'usu u marcuri GitLab Runner'a, causatu da i tentativi di utilizà minuti di corridore per a minera di criptocurrency. L'incidentu hè statu risoltu cù un strumentu di mitigazione propiu chì ferma i travaglii di u corridore è sguassate u prughjettu è u contu assuciatu cun ellu.

Se questu avvenimentu ùn era micca statu nutatu, un strumentu automatizatu l'avaria chjappu, ma in questu casu, l'ingegnere SRE hà nutatu a violazione prima. Un compitu incidente hè statu creatu, ma l'infurmazioni nantu à questu hè chjusu.

2. A degradazione di u rendiment di l'applicazioni Canary è Main

L'incidentu hè statu alimentatu da rallentamenti è aumentu di i tassi d'errore in l'applicazioni web canarie è principali in Gitlab.com. Diversi valori Apdex sò stati violati.

Tarea aperta per incidente: https://gitlab.com/gitlab-com/gl-infra/production/issues/1442

Risultati chjave

Eccu alcuni punti chì aghju amparatu durante a settimana di u duvere.

1. L'alerts sò più utili à a rilevazione di deviazioni da a norma.

A notificazione pò esse divisa in parechji tipi:

  • Alerts basatu annantu à un certu limitu, cum'è "10 5xx errors occurred per second".
  • Alerts induve u sogliu hè un valore percentuale cum'è "5xx error rate per 10% of total requests at a given time".
  • Alerts basati nantu à una media storica cum'è "5xx errors in the 90th percentile".

In generale, i tipi 2 è 3 sò più utili per i SRE in turnu, postu chì revelanu anormalità in u prucessu.

2. Parechje alerti mai escalate à incidenti

L'ingegneri SR trattanu cun un flussu constante di alerti, assai di quali ùn sò micca veramente critichi.

Allora perchè micca limità l'alerte solu à quelli veramente impurtanti? Cù questu approcciu, però, i primi sintomi di ciò chì a bola di neve in un veru prublema chì minaccia danni maiò ponu esse trascurati.

U compitu di l'SRE in turnu hè di determinà quali alerti significanu veramente qualcosa di seriu, è s'ellu deve esse scalatu è cuminciatu à esse risolti. Sospettate chì questu hè ancu dovutu à l'inflessibilità di l'alerte: saria megliu s'ellu introducenu parechji livelli o modi "intelligenti" per persunalizà alerti secondu a situazione descritta sopra.

Suggerimentu di funziunalità: https://gitlab.com/gitlab-org/gitlab/issues/42633

3. I nostri SRE utilizanu assai arnesi

Internu:

  • Prughjettu GitLab infra: Runbooks vivenu quì, trasmissioni di turni / settimana, attività di risposta à incidenti.
  • Problemi di GitLab: Investigazione, debriefing è mantenimentu sò ancu tracciati in prublemi.
  • Etichette GitLab: I travaglii di l'automatizazione sò attivati ​​da etichette specifiche chì i bots utilizanu per seguità l'attività di l'attività.

Esternu:

  • Avvisi PagerDuty
  • Slack: Questu hè induve u flussu di missaghju PagerDuty / AlertManager. Integrazione cù cumandamenti slash per eseguisce una varietà di attività, cum'è chjude una alerta o scalate à un incidente.
  • Grafana: visualizazione di metriche cun un focusu nantu à e tendenze à longu andà.
  • Kibana: dà a visualizazione / ricerca di log, a capacità di scavà più in certi avvenimenti.
  • Zoom: Ci hè una "sala di ripartizione" permanente in Zoom. Questu permette à i SRE di discutiri rapidamente l'avvenimenti senza perde un tempu preziosu creendu una stanza è ligà i membri.

E tanti tanti altri.

4. Monitoring GitLab.com cù GitLab hè un unicu puntu di fallimentu

Se GitLab.com sperimenta una mancanza di serviziu maiò, ùn vulemu micca chì affetta a nostra capacità di risolve u prublema. Pò esse firmatu cù una seconda istanza di GitLab per gestisce GitLab.com. In fatti, questu hè digià travagliatu per noi: https://ops.gitlab.net/.

5. Uni pochi di funziunalità à cunsiderà aghjunghje à GitLab

  • Edizione Multi-User Issue, simile à Google Docs. Questu aiuterà in i travaglii incidenti durante l'avvenimentu, è ancu in i travaglii di debriefing. In i dui casi, parechji participanti puderanu bisognu di aghjunghje qualcosa in tempu reale à una volta.
  • Più webhooks per i travaglii. A capacità di eseguisce diversi passi di flussu di travagliu GitLab da l'internu vi aiuterà à riduce a vostra dipendenza da integrazioni Slack. Per esempiu, a capacità di attivà una alerta in PagerDuty via un cumandamentu slash in un prublema GitLab.
    cunchiusioni

L'ingegneri SRE anu un tempu duru cù parechje cumplessità. Saria fantasticu per vede più prudutti di GitLab affruntà questi prublemi. Avemu digià travagliatu annantu à alcune aghjunte à u pruduttu chì farà più faciule i flussi di travagliu citati sopra. I pezzi sò dispunibili in Ops Product Vision sezione.

In 2020, espansione a squadra per riunisce tutte queste grandi caratteristiche. Sè interessatu, per piacè verificate vacanti, è sentite liberu di cuntattà qualcunu di a nostra squadra cù qualsiasi dumande.

Source: www.habr.com

Add a comment