"A speranza hè una mala strategia". SRE intensive in Mosca, 3-5 ferraghju
Avemu annunziatu u primu cursu praticu nantu à SRE in Russia: Slurm SRE.
Duranti l'intensiva, passeremu trè ghjorni à custruisce, rompe, riparà è migliurà un situ web di aggregatore per a vendita di biglietti di cinema.
Avemu sceltu un aggregatore di bigliettu perchè hà parechji scenarii di fallimentu: un afflussu di visitatori è attacchi DDoS, u fallimentu di unu di i numerosi microservizi critichi (autorizazione, riservazioni, trattamentu di pagamentu), l'indisponibilità di unu di i numerosi cinemas (scambiu di dati circa). posti dispunibili è riservazioni), è più in basso in a lista.
Formuleremu u cuncettu di Affidabilità per u nostru situ di aggregatore, chì svilupperemu ulteriormente in Ingegneria, analizzeremu u disignu da u puntu di vista di SRE, selezziunà metriche, stabilisce u so monitoraghju, eliminà incidenti emergenti, cunduceremu furmazione per u travagliu in squadra cù incidenti. in cundizioni vicinu à u cummattimentu, urganizà un debriefing.
U prugramma hè gestitu da l'impiegati di Booking.com è Google.
Sta volta ùn ci sarà micca participazione remota : u corsu hè custruitu annantu à l'interazzione persunale è u travagliu in squadra.
Dettagli sottu u cut
I parlanti
Ivan Kruglov
Sviluppatore principale in Booking.com (Paesi Bassi)
Dapoi unitu à Booking.com in 2013, hà travagliatu nantu à prughjetti infrastrutturali cum'è a spedizione è u processu di messagi distribuiti, BigData è web-stack, search.
Attualmente travaglia nantu à prublemi di custruisce un nuvulu internu è Service Mesh.
Ben Tyler
Sviluppatore principale in Booking.com (USA)
Impegnatu in u sviluppu internu di a piattaforma Booking.com.
Hè specializatu in a rete di serviziu / scuperta di serviziu, pianificazione di u travagliu in batch, risposta à incidenti è prucessu post mortem.
Parla è insegna in russo.
Evgenij Varavva
Sviluppatore generale in Google (San Francisco).
Esperienza da prughjetti web di alta carica à ricerca in visione di computer è robotica.
Dapoi u 2011, hà participatu à a creazione è u funziunamentu di sistemi distribuiti in Google, participendu à u ciclu di vita sanu di u prugettu: cuncepimentu, cuncepimentu è architettura, lanciamentu, plegamentu è tutte e tappe intermedie.
Eduard Medvedev
CTO in Tungsten Labs (Germania)
Hà travagliatu cum'è ingegnere in StackStorm, rispunsevule per a funziunalità ChatOps di a piattaforma. Sviluppatu è implementatu ChatOps per l'automatizazione di u centru di dati. Speaker in cunferenze russe è internaziunali.
U prugrammu
U prugramma hè sviluppatu attivamente. Avà pare cusì, da ferraghju pò migliurà è espansione.
Tema #1: Principi basi è metudi di SRE
Chì ci vole per diventà un SRE?
DevOps vs SRE
Perchè i sviluppatori valore SRE è sò assai tristi quandu ùn sò micca in u prugettu
SLI, SLO è SLA
U budget di errore è u so rolu in SRE
Tema #2: Disegnu di sistemi distribuiti
Architettura di l'applicazione è funziunalità
Disegnu di Grandi Sistemi Non-Astrattu
Operabilità / Design per fallimentu
gRPC o REST
Versione è cumpatibilità retrocede
Tema #3: Cumu un prughjettu SRE hè accettatu
E migliori pratiche da SRE
Lista di cuntrollu di accettazione di u prugettu
Logging, metrica, traccia
Pigliendu CI/CD in e nostre mani
Tema 4 : Disegnu è lanciazione di un sistema distribuitu
Ingegneria inversa - cumu funziona u sistema?
Semu d'accordu nantu à SLI è SLO
Praticà a pianificazione di capacità
Lanciando u trafficu à l'applicazione, i nostri utilizatori cumincianu à "usà".
Lanciamentu di Prometheus, Grafana, Elastic
Tema #5: Monitoraghju, Osservabilità è Alerta
Monitoring vs. Osservabilità
Configurazione di u monitoraghju è l'alerta cù Prometheus
Monitoramentu praticu di SLI è SLO
Sintomi vs. Cause
Black-Box vs. White-Box Monitoring
Monitoraghju distribuitu di a dispunibilità di l'applicazioni è di u servitore
4 signali d'oru (deteczione di anomalie)
Tema n ° 6: Pràtica di a prova di affidabilità di u sistema
U travagliu sottu pressione
fallimentu-injection
Scimmia di Chaos
Tema #7: Pratica di risposta à l'incidente
Algoritmu di gestione di u stress
Interazione trà i participanti di l'incidentu
Post mortem
A spartera di cunniscenze
Formà a cultura
Monitoraghju di difetti
Cunducendu un debriefing senza culpa
Tema #8: Pratiche di gestione di carica
Equilibratu di carica
Tolleranza à i difetti di l'applicazione: riprova, timeout, iniezione di fallimentu, circuit breaker
DDoS (creazione di carica) + Cascading Failures
Tema #9: Risposta à l'incidente
Debriefing
On-Call Practice
Diversi tipi di accidenti (test, cambiamenti di cunfigurazione, fallimentu hardware)
Protokolli di gestione di incidenti
Tema #10: Diagnosi è risolve i prublemi
Logging
Debugging
Pruvate l'analisi è u debugging nantu à a nostra applicazione
Tema #11: Test di affidabilità di u sistema
Test di Stress
Test di cunfigurazione
Test di rendiment
Liberazione Canaria
Sugettu n ° 12 : travagliu indipendente è rivista
Raccomandazioni è esigenze per i participanti
SRE hè un sforzu di squadra. Ricumandemu fermamente à piglià u corsu cum'è una squadra. Hè per quessa chì offremu grandi sconti per i gruppi pronti.
U prezzu di u cursu hè di 60 000 ₽ per persona.
Se una cumpagnia manda un gruppu di 5+ persone - 40 000 ₽.
U cursu hè custruitu nantu à Kubernetes. Per passà, avete bisognu di cunnosce Kubernetes à un livellu basicu. Se ùn travagliate micca cun ellu, pudete passà per Slurm Basic (онлайн o intensivu 18-20 nuvembre).
Inoltre, avete bisognu à esse prufessore in Linux è cunnosce Gitlab è Prometheus.
Sè vo avete un 'idea cumplessa di participazione, per esempiu, per u CEO, CTO è una squadra di sviluppori à vene à u corsu, è per elli à sottumette un stasgiu pigghiannu contu a gestione verticale, scrivite à mè in un missaghju persunale.