Slurm SRE. Esperimentu cuntinuu cù esperti di Booking.com è Google.com

A nostra squadra ama l'esperimenti. Ogni Slurm ùn hè micca una ripetizione statica di i precedenti, ma una riflessione nantu à l'esperienza è una transizione da u bonu à u megliu. Ma cun Slurm SRE avemu decisu di applicà un furmatu cumplettamente novu - per dà à i participanti cundizioni u più vicinu à u "combatte".

Se descrivemu brevemente ciò chì avemu fattu durante u cursu intensivu: "Custruemu, rompemu, riparemu,
noi studiemu ". SRE vale pocu in mera teoria - solu pratica, suluzioni veri, prublemi veri.

I participanti sò stati divisi in squadre in modu chì un spiritu di cumpetizione vigorosa ùn permettenu micca à nimu di dorme o lancià "Angry Birds" in l'iPhone, seguitu l'esempiu di Dmitry Anatolyevich.

Prublemi, glitches, bugs è compiti sò stati furniti à i participanti da quattru mentori. Ivan Kruglov, Sviluppatore Principale in Booking.com (Paesi Bassi). Ben Tyler, Sviluppatore Principale in Booking.com (USA). Eduard Medvedev, CTO in Tungsten Labs (Germania). Evgeniy Varavva, sviluppatore generale di Google (San Francisco).

Inoltre, i participanti sò spartuti in squadre è cumpetenu cù l'altri. Interessante?

Slurm SRE. Esperimentu cuntinuu cù esperti di Booking.com è Google.com
Ivan, Ben, Eduard è Evgeniy fighjanu à i poveri participanti di Slurm SRE cù squints gentili leninisti prima di l'iniziu di a cumpetizione.

Allora u compitu:

Semu nostri, custruiremu un mondu novu...

Ci hè un situ web di aggregatore di biglietti di film. L'incidenti sò inventati da mentors in un scenariu pre-travagliatu (ancu se nimu esclude l'improvisazione particularmente sofisticata è insidiosa), u funziunamentu di u situ hè descrittu da diverse metriche. I prublemi ponu esse assai diffirenti: i biglietti per u teatru Moulin Rouge ùn sò micca carricati in a basa di dati; posters di filmi è spettaculi sò caricati in a basa di dati in più di 10 seconde; a descrizzione di un film individuale si congela; 0,1% di ordini sò digià riservati; Da u tempu à u tempu, u sistema di trattamentu di pagamentu crash per un minutu o dui. È assai, assai, assai cose dispiacenti chì ponu accade à un participante Slurm SRE à u so veru travagliu.

Slurm SRE. Esperimentu cuntinuu cù esperti di Booking.com è Google.com
Semu pronti per trattà tuttu ... è tutti.

U nostru situ web longu patitu hè custituitu da parechji microservizi. U so compitu hè di aggregate dati nantu à i spettaculi, i prezzi è i posti dispunibuli da tutti i cinemas; mostra annunzii di filmi, permette di selezziunà un cinema, spettaculu, sala è locu, riservà è pagà per i biglietti. In generale, tuttu ciò chì u visore pò solu sunnià. Ma l'utilizatore ùn sospetta mancu ciò chì una lotta titanica per a stabilità è l'accessibilità di u situ si passa in l'internu.

Per u situ intensivu, avemu generatu indicatori SLO, SLI, SLA, sviluppatu architettura è infrastruttura, implementatu u situ, cunfigurà u monitoraghju è l'alerta. È andemu via.

SLO, SLI, SLA

SLI - indicatori di livellu di serviziu. SLO sò scopi di livellu di serviziu. SLA - accordi di livellu di serviziu.

SLA hè un termini di metodulugia ITIL chì denota un accordu formale trà u cliente di un serviziu è u so fornitore, chì cuntene una descrizzione di u serviziu, i diritti è l'obligazioni di i partiti è, più impurtante, u livellu di qualità accunsentutu per a prestazione di questu. serviziu.

Un SLO hè un scopu di livellu di serviziu: un valore di destinazione o una gamma di valori per un livellu di serviziu chì hè misuratu da u SLI. Un valore normale per SLO hè "SLI ≤ Target" o "Lower Limit ≤ SLI ≤ Upper Limit".

L'SLI hè un indicatore di livellu di serviziu - una misura quantitativa currettamente definita di un aspettu di u livellu di serviziu furnitu. Per a maiò parte di i servizii, a chjave SLI hè cunsiderata cum'è una latenza di dumanda - quantu tempu ci vole à vultà una risposta à una dumanda. L'altri SLI cumuni includenu a rata d'errore, spessu espressa cum'è una frazione di tutte e dumande ricevute, è u throughput di u sistema, generalmente misuratu in richieste per seconda.

Prima di tuttu, romperemu l'aviò, è dopu e zitelle, è dopu e zitelle...

Fatturisti interni è esterni cuminciaru à "spoil" SLO da i primi minuti. Tuttu hè cascatu nantu à i capi di l'amministratori - errori di sviluppatori, fallimenti di l'infrastruttura, un afflussu di visitatori è attacchi DDoS. Tuttu ciò chì aggrava SLO.

Slurm SRE. Esperimentu cuntinuu cù esperti di Booking.com è Google.com
"- Cari participanti, aghju prestu à fà piacè, u primu chì falla hè ... tuttu !"

In a strada, i parlanti discutevanu a stabilità, u bilanciu d'errore, a pratica di teste, a gestione di l'interruzioni è a carica operativa.

Ùn simu micca fuochi, nè carpentieri...

Allora i participanti cuminciaru à riparà e cose - a cosa principal hè di capisce ciò chì deve piglià prima.

Slurm SRE. Esperimentu cuntinuu cù esperti di Booking.com è Google.com
"- Signore, ùn l'aghju mai vistu rompe cusì, in questa forma è in una tale pusizioni!"

Dunque, hè accadutu un accidente. U serviziu di trattamentu di pagamentu hè falatu. Cumu agisce per restaurà a funziunalità in u più cortu tempu pussibule?

Slurm SRE. Esperimentu cuntinuu cù esperti di Booking.com è Google.com
L'esperti, fighjendu affettuosamente à i participanti, preparanu un altru truccu.

Ogni squadra urganizeghja u travagliu di u gruppu per eliminà l'accidentu - implica i culleghi, notifica à i partiti interessati (parti interessate). À u listessu tempu, e priorità sò stabilite. In questu modu, i participanti anu furmatu per travaglià sottu pressione in cundizioni di tempu estremamente limitati.

Slurm SRE. Esperimentu cuntinuu cù esperti di Booking.com è Google.com
"Chì tipu d'orrore hè surtitu ?!"

Exhale... è finisce l'esercitu

Inseme cù i parlanti, dopu chì ogni prublema hè stata risolta è u situ hè statu temporaneamente stabilizatu, a squadra hà studiatu l'incidenti da un puntu di vista SRE. Avemu analizatu i prublemi in detail - i causi di l'occurrence, u prugressu di l'eliminazione. Dopu à quessa, sia squadra per squadra è cullettivu, avemu pigliatu decisioni nantu à cumu per prevene più: cumu migliurà u monitoraghju, cumu cambià sapientemente l'architettura, cumu aghjustà l'approcciu à u sviluppu è u funziunamentu, cumu curreghje i regulamenti. I parlanti anu dimustratu a pratica di cunducerà post-mortem.

Slurm SRE. Esperimentu cuntinuu cù esperti di Booking.com è Google.com
« Quale altru vole turmentu ! - Eiu!"

I successi di e squadre sò stati strettamente è chjaramente registrati in u scoreboard elettronicu.

Slurm SRE. Esperimentu cuntinuu cù esperti di Booking.com è Google.com

Per i primi posti - un bonus da i stakeholder.

Slurm SRE. Esperimentu cuntinuu cù esperti di Booking.com è Google.com

Source: www.habr.com

Add a comment