“La speranza è una cattiva strategia”. Intensivo SRE a Mosca, 3-5 febbraio

Stiamo annunciando il primo corso pratico sulla SRE in Russia: Slurm SRE.

Durante l'intensivo passeremo tre giorni a costruire, rompere, riparare e migliorare un sito web aggregatore per la vendita di biglietti per il cinema.

“La speranza è una cattiva strategia”. Intensivo SRE a Mosca, 3-5 febbraio

Abbiamo scelto un aggregatore di biglietti perché presenta molti scenari di fallimento: un afflusso di visitatori e attacchi DDoS, il fallimento di uno dei tanti microservizi critici (autorizzazione, prenotazioni, elaborazione dei pagamenti), l'indisponibilità di uno dei tanti cinema (scambio di dati circa posti disponibili e prenotazioni) e più in basso nell'elenco.

Formuleremo il concetto di affidabilità per il nostro sito aggregatore, che svilupperemo ulteriormente in Ingegneria, analizzeremo la progettazione dal punto di vista SRE, selezioneremo le metriche, imposteremo il loro monitoraggio, elimineremo gli incidenti emergenti, condurremo la formazione per il lavoro di squadra con gli incidenti in condizioni prossime al combattimento, organizzare un debriefing.

Il programma è gestito dai dipendenti di Booking.com e Google.
Questa volta non ci sarà partecipazione a distanza: il corso si basa sull'interazione personale e sul lavoro di squadra.

Dettagli sotto il taglio

пикеры

Ivan Kruglov
Sviluppatore principale presso Booking.com (Paesi Bassi)
Da quando è entrato in Booking.com nel 2013, ha lavorato su progetti infrastrutturali come la consegna e l'elaborazione distribuita dei messaggi, BigData e web-stack, ricerca.
Attualmente sto lavorando su problemi relativi alla creazione di un cloud interno e di Service Mesh.

Ben Tyler
Sviluppatore principale presso Booking.com (USA)
Impegnato nello sviluppo interno della piattaforma Booking.com.
Specializzato in service mesh/service discovery, pianificazione di lavori batch, risposta agli incidenti e processo post-mortem.
Parla e insegna in russo.

Evgeniy Varavva
Sviluppatore generale presso Google (San Francisco).
Esperienza da progetti web ad alto carico alla ricerca nella visione artificiale e nella robotica.
Dal 2011 è stato coinvolto nella creazione e gestione dei sistemi distribuiti presso Google, partecipando all'intero ciclo di vita del progetto: concettualizzazione, design e architettura, lancio, piegatura e tutte le fasi intermedie.

Eduard Medvedev
CTO presso Tungsten Labs (Germania)
Ha lavorato come ingegnere presso StackStorm, responsabile della funzionalità ChatOps della piattaforma. ChatOps sviluppato e implementato per l'automazione dei data center. Relatore a convegni russi e internazionali.

Programma

Il programma è in fase di sviluppo attivo. Ora sembra così, entro febbraio potrebbe migliorare ed espandersi.

Argomento n. 1: Principi e metodi di base della SRE

  • Cosa serve per diventare SRE?
  • DevOps contro SRE
  • Perché gli sviluppatori apprezzano SRE e sono molto tristi quando non partecipano al progetto
  • SLI, SLO e SLA
  • Budget degli errori e suo ruolo nell'SRE

Argomento n.2: Progettazione di sistemi distribuiti

  • Architettura e funzionalità dell'applicazione
  • Progettazione di sistemi di grandi dimensioni non astratti
  • Operabilità/Progettazione per il guasto
  • gRPC o REST
  • Versioni e compatibilità con le versioni precedenti

Argomento n.3: Come viene accettato un progetto SRE

  • Migliori pratiche da SRE
  • Lista di controllo per l'accettazione del progetto
  • Registrazione, metriche, tracciamento
  • Prendere CI/CD nelle nostre mani

Argomento n. 4: Progettazione e lancio di un sistema distribuito

  • Reverse engineering: come funziona il sistema?
  • Siamo d'accordo su SLI e SLO
  • Pratica la pianificazione delle capacità
  • Avviando il traffico verso l'applicazione, i nostri utenti iniziano a "usarla".
  • Lancio Prometeo, Grafana, Elastico

Argomento n. 5: monitoraggio, osservabilità e avvisi

  • Monitoraggio vs. Osservabilità
  • Configurazione del monitoraggio e degli avvisi con Prometheus
  • Monitoraggio pratico di SLI e SLO
  • Sintomi contro Cause
  • Scatola nera vs. Monitoraggio della scatola bianca
  • Monitoraggio distribuito della disponibilità di applicazioni e server
  • 4 segnali dorati (rilevamento anomalie)

Argomento n. 6: Pratica per testare l'affidabilità del sistema

  • Lavorare sotto pressione
  • Iniezione fallita
  • Scimmia del caos

Argomento n. 7: pratica di risposta agli incidenti

  • Algoritmo di gestione dello stress
  • Interazione tra i partecipanti all'incidente
  • Postumortem
  • Condivisione della conoscenza
  • Plasmare la cultura
  • Monitoraggio dei guasti
  • Condurre un debriefing irreprensibile

Argomento n. 8: pratiche di gestione del carico

  • Bilancio del carico
  • Tolleranza agli errori dell'applicazione: nuovo tentativo, timeout, inserimento di errori, interruttore automatico
  • DDoS (creazione di carico) + Errori a cascata

Argomento n. 9: Risposta agli incidenti

  • debriefing
  • Pratica a chiamata
  • Vari tipi di incidenti (test, modifiche alla configurazione, guasti hardware)
  • Protocolli di gestione degli incidenti

Argomento n. 10: Diagnosi e risoluzione dei problemi

  • Registrazione
  • debug
  • Esercitati nell'analisi e nel debug sulla nostra applicazione

Argomento n. 11: test di affidabilità del sistema

  • Prove di stress
  • Test di configurazione
  • Test delle prestazioni
  • Rilascio Canarie

Argomento n. 12: Lavoro indipendente e revisione

Raccomandazioni e requisiti per i partecipanti

SRE è un lavoro di squadra. Consigliamo vivamente di frequentare il corso in gruppo. Ecco perché offriamo grandi sconti per le squadre già pronte.

Il prezzo del corso è di 60 ₽ a persona.
Se un'azienda invia un gruppo di 5+ persone - 40 ₽.

Il corso è costruito su Kubernetes. Per passare è necessario conoscere Kubernetes a livello base. Se non lavori con lui, puoi seguire Slurm Basic (онлайн o intensivo 18-20 novembre).
Inoltre, devi essere esperto in Linux e conoscere Gitlab e Prometheus.

Registrati

Se hai un'idea complessa per la partecipazione, ad esempio, che il CEO, il CTO e un team di sviluppatori vengano al corso e facciano uno stage tenendo conto del verticale del management, scrivimi in un messaggio personale.

Fonte: habr.com

Aggiungi un commento