Slurm SRE. Un esperimento completo con gli esperti di Booking.com e Google.com

Il nostro team ama gli esperimenti. Ogni Slurm non è una ripetizione statica dei precedenti, ma una riflessione sull'esperienza e un passaggio dal bene al meglio. Ma con Slurm SRE abbiamo deciso di applicare un formato completamente nuovo: per offrire ai partecipanti condizioni il più vicino possibile al "combattimento".

Se descriviamo brevemente cosa abbiamo fatto durante il corso intensivo: “Costruiamo, rompiamo, ripariamo,
stiamo studiando." La SRE vale poco in teoria: solo pratica, soluzioni reali, problemi reali.

I partecipanti sono stati divisi in squadre in modo che un vigoroso spirito competitivo non permettesse a nessuno di addormentarsi o di lanciare "Angry Birds" sull'iPhone, seguendo l'esempio di Dmitry Anatolyevich.

Problemi, anomalie, bug e compiti sono stati forniti ai partecipanti da quattro mentori. Ivan Kruglov, sviluppatore principale di Booking.com (Paesi Bassi). Ben Tyler, sviluppatore principale di Booking.com (USA). Eduard Medvedev, CTO di Tungsten Labs (Germania). Evgeniy Varavva, sviluppatore generale presso Google (San Francisco).

Inoltre, i partecipanti sono divisi in squadre e competono tra loro. Interessante?

Slurm SRE. Un esperimento completo con gli esperti di Booking.com e Google.com
Ivan, Ben, Eduard ed Evgeniy guardano i poveri partecipanti allo Slurm SRE con gentile sguardo leninista prima dell'inizio della competizione.

Quindi il compito:

Siamo nostri, costruiremo un nuovo mondo ...

Esiste un sito Web aggregatore di biglietti per il cinema. Gli incidenti vengono inventati dai mentori in uno scenario preelaborato (anche se nessuno esclude un'improvvisazione particolarmente sofisticata e insidiosa), la performance del sito è descritta da varie metriche. I problemi possono essere molto diversi: i biglietti per il teatro Moulin Rouge non vengono caricati nel database; le locandine dei film e degli spettacoli vengono caricate nel database in più di 10 secondi; la descrizione di un singolo film si blocca; Lo 0,1% degli ordini è già prenotato; Di tanto in tanto il sistema di elaborazione dei pagamenti si blocca per un minuto o due. E molte, molte, molte cose spiacevoli che possono capitare a un partecipante a Slurm SRE nel suo vero lavoro.

Slurm SRE. Un esperimento completo con gli esperti di Booking.com e Google.com
Siamo pronti a gestire qualsiasi cosa... e tutti.

Il nostro sito Web di lunga durata è costituito da diversi microservizi. Il suo compito è aggregare dati su spettacoli, prezzi e posti disponibili di tutti i cinema; mostra gli annunci dei film, permette di selezionare cinema, spettacolo, sala e posto, prenotare e pagare i biglietti. In generale, tutto ciò che lo spettatore può solo sognare. Ma l'utente non sospetta nemmeno quale lotta titanica si stia svolgendo all'interno per la stabilità e l'accessibilità del sito.

Per il sito intensivo, abbiamo generato indicatori SLO, SLI, SLA, sviluppato architettura e infrastruttura, implementato il sito, impostato il monitoraggio e gli avvisi. E andiamo via.

SLO, SLI, SLA

SLI - indicatori del livello di servizio. Gli SLO sono obiettivi del livello di servizio. SLA: accordi sul livello di servizio.

SLA è un termine della metodologia ITIL che denota un accordo formale tra il cliente di un servizio e il suo fornitore, contenente una descrizione del servizio, i diritti e gli obblighi delle parti e, soprattutto, il livello di qualità concordato per la fornitura di questo servizio.

Uno SLO è un obiettivo del livello di servizio: un valore target o un intervallo di valori per un livello di servizio misurato dallo SLI. Un valore normale per lo SLO è “SLI ≤ Target” o “Limite inferiore ≤ SLI ≤ Limite superiore”.

Lo SLI è un indicatore del livello di servizio, una misura quantitativa attentamente definita di un aspetto del livello di servizio fornito. Per la maggior parte dei servizi, la chiave SLI è considerata la latenza della richiesta, ovvero il tempo necessario per restituire una risposta a una richiesta. Altri SLI comuni includono il tasso di errore, spesso espresso come una frazione di tutte le richieste ricevute, e il throughput del sistema, solitamente misurato in richieste al secondo.

Prima di tutto distruggeremo gli aerei, poi le ragazze, e poi le ragazze...

Fattori interni ed esterni hanno iniziato a "rovinare" SLO fin dai primi minuti. Tutto è caduto sulla testa degli amministratori: errori degli sviluppatori, guasti dell'infrastruttura, afflusso di visitatori e attacchi DDoS. Tutto ciò che peggiora lo SLO.

Slurm SRE. Un esperimento completo con gli esperti di Booking.com e Google.com
“- Cari partecipanti, mi affretto a compiacervi, la prima cosa che sbagliate è... tutto!”

Lungo il percorso i relatori hanno discusso di stabilità, budget di errore, pratica di testing, gestione delle interruzioni e carico operativo.

Non siamo fuochisti, né falegnami...

Quindi i partecipanti hanno iniziato a sistemare le cose: l'importante è capire cosa prendere prima.

Slurm SRE. Un esperimento completo con gli esperti di Booking.com e Google.com
“- Signore, non l’ho mai visto rompersi così, in questa forma e in una tale posizione!”

Quindi si è verificato un incidente. Il servizio di elaborazione dei pagamenti è inattivo. Come agire per ripristinare la funzionalità nel più breve tempo possibile?

Slurm SRE. Un esperimento completo con gli esperti di Booking.com e Google.com
Gli esperti, guardando affettuosamente i partecipanti, stanno preparando un altro trucco.

Ogni squadra organizza il lavoro del gruppo per eliminare l'incidente - coinvolge i colleghi, informa le parti interessate (stakeholder). Allo stesso tempo vengono stabilite le priorità. In questo modo i partecipanti si sono formati a lavorare sotto pressione in condizioni di tempo estremamente limitate.

Slurm SRE. Un esperimento completo con gli esperti di Booking.com e Google.com
"Che tipo di orrore è uscito?!"

Espira... e finisci l'esercizio

Insieme ai relatori, dopo che ogni problema è stato risolto e il sito è stato temporaneamente stabilizzato, il team ha studiato gli incidenti dal punto di vista SRE. Abbiamo analizzato i problemi in dettaglio: le cause dell'insorgenza, il progresso dell'eliminazione. Successivamente, sia team per team che collettivamente, abbiamo preso decisioni su come prevenirli ulteriormente: come migliorare il monitoraggio, come modificare saggiamente l’architettura, come adattare l’approccio allo sviluppo e al funzionamento, come correggere le normative. I relatori hanno dimostrato la pratica dell'esecuzione dell'autopsia.

Slurm SRE. Un esperimento completo con gli esperti di Booking.com e Google.com
“Chi altro vuole il tormento! - IO!"

I successi delle squadre sono stati rigorosamente e chiaramente registrati sul tabellone elettronico.

Slurm SRE. Un esperimento completo con gli esperti di Booking.com e Google.com

Per i primi posti: un bonus da parte delle parti interessate.

Slurm SRE. Un esperimento completo con gli esperti di Booking.com e Google.com

Fonte: habr.com

Aggiungi un commento