"A speranza hè una mala strategia". SRE intensive in Mosca, 3-5 ferraghju

Avemu annunziatu u primu cursu praticu nantu à SRE in Russia: Slurm SRE.

Duranti l'intensiva, passeremu trè ghjorni à custruisce, rompe, riparà è migliurà un situ web di aggregatore per a vendita di biglietti di cinema.

"A speranza hè una mala strategia". SRE intensive in Mosca, 3-5 ferraghju

Avemu sceltu un aggregatore di bigliettu perchè hà parechji scenarii di fallimentu: un afflussu di visitatori è attacchi DDoS, u fallimentu di unu di i numerosi microservizi critichi (autorizazione, riservazioni, trattamentu di pagamentu), l'indisponibilità di unu di i numerosi cinemas (scambiu di dati circa). posti dispunibili è riservazioni), è più in basso in a lista.

Formuleremu u cuncettu di Affidabilità per u nostru situ di aggregatore, chì svilupperemu ulteriormente in Ingegneria, analizzeremu u disignu da u puntu di vista di SRE, selezziunà metriche, stabilisce u so monitoraghju, eliminà incidenti emergenti, cunduceremu furmazione per u travagliu in squadra cù incidenti. in cundizioni vicinu à u cummattimentu, urganizà un debriefing.

U prugramma hè gestitu da l'impiegati di Booking.com è Google.
Sta volta ùn ci sarà micca participazione remota : u corsu hè custruitu annantu à l'interazzione persunale è u travagliu in squadra.

Dettagli sottu u cut

I parlanti

Ivan Kruglov
Sviluppatore principale in Booking.com (Paesi Bassi)
Dapoi unitu à Booking.com in 2013, hà travagliatu nantu à prughjetti infrastrutturali cum'è a spedizione è u processu di messagi distribuiti, BigData è web-stack, search.
Attualmente travaglia nantu à prublemi di custruisce un nuvulu internu è Service Mesh.

Ben Tyler
Sviluppatore principale in Booking.com (USA)
Impegnatu in u sviluppu internu di a piattaforma Booking.com.
Hè specializatu in a rete di serviziu / scuperta di serviziu, pianificazione di u travagliu in batch, risposta à incidenti è prucessu post mortem.
Parla è insegna in russo.

Evgenij Varavva
Sviluppatore generale in Google (San Francisco).
Esperienza da prughjetti web di alta carica à ricerca in visione di computer è robotica.
Dapoi u 2011, hà participatu à a creazione è u funziunamentu di sistemi distribuiti in Google, participendu à u ciclu di vita sanu di u prugettu: cuncepimentu, cuncepimentu è architettura, lanciamentu, plegamentu è tutte e tappe intermedie.

Eduard Medvedev
CTO in Tungsten Labs (Germania)
Hà travagliatu cum'è ingegnere in StackStorm, rispunsevule per a funziunalità ChatOps di a piattaforma. Sviluppatu è implementatu ChatOps per l'automatizazione di u centru di dati. Speaker in cunferenze russe è internaziunali.

U prugrammu

U prugramma hè sviluppatu attivamente. Avà pare cusì, da ferraghju pò migliurà è espansione.

Tema #1: Principi basi è metudi di SRE

  • Chì ci vole per diventà un SRE?
  • DevOps vs SRE
  • Perchè i sviluppatori valore SRE è sò assai tristi quandu ùn sò micca in u prugettu
  • SLI, SLO è SLA
  • U budget di errore è u so rolu in SRE

Tema #2: Disegnu di sistemi distribuiti

  • Architettura di l'applicazione è funziunalità
  • Disegnu di Grandi Sistemi Non-Astrattu
  • Operabilità / Design per fallimentu
  • gRPC o REST
  • Versione è cumpatibilità retrocede

Tema #3: Cumu un prughjettu SRE hè accettatu

  • E migliori pratiche da SRE
  • Lista di cuntrollu di accettazione di u prugettu
  • Logging, metrica, traccia
  • Pigliendu CI/CD in e nostre mani

Tema 4 : Disegnu è lanciazione di un sistema distribuitu

  • Ingegneria inversa - cumu funziona u sistema?
  • Semu d'accordu nantu à SLI è SLO
  • Praticà a pianificazione di capacità
  • Lanciando u trafficu à l'applicazione, i nostri utilizatori cumincianu à "usà".
  • Lanciamentu di Prometheus, Grafana, Elastic

Tema #5: Monitoraghju, Osservabilità è Alerta

  • Monitoring vs. Osservabilità
  • Configurazione di u monitoraghju è l'alerta cù Prometheus
  • Monitoramentu praticu di SLI è SLO
  • Sintomi vs. Cause
  • Black-Box vs. White-Box Monitoring
  • Monitoraghju distribuitu di a dispunibilità di l'applicazioni è di u servitore
  • 4 signali d'oru (deteczione di anomalie)

Tema n ° 6: Pràtica di a prova di affidabilità di u sistema

  • U travagliu sottu pressione
  • fallimentu-injection
  • Scimmia di Chaos

Tema #7: Pratica di risposta à l'incidente

  • Algoritmu di gestione di u stress
  • Interazione trà i participanti di l'incidentu
  • Post mortem
  • A spartera di cunniscenze
  • Formà a cultura
  • Monitoraghju di difetti
  • Cunducendu un debriefing senza culpa

Tema #8: Pratiche di gestione di carica

  • Equilibratu di carica
  • Tolleranza à i difetti di l'applicazione: riprova, timeout, iniezione di fallimentu, circuit breaker
  • DDoS (creazione di carica) + Cascading Failures

Tema #9: Risposta à l'incidente

  • Debriefing
  • On-Call Practice
  • Diversi tipi di accidenti (test, cambiamenti di cunfigurazione, fallimentu hardware)
  • Protokolli di gestione di incidenti

Tema #10: Diagnosi è risolve i prublemi

  • Logging
  • Debugging
  • Pruvate l'analisi è u debugging nantu à a nostra applicazione

Tema #11: Test di affidabilità di u sistema

  • Test di Stress
  • Test di cunfigurazione
  • Test di rendiment
  • Liberazione Canaria

Sugettu n ° 12 : travagliu indipendente è rivista

Raccomandazioni è esigenze per i participanti

SRE hè un sforzu di squadra. Ricumandemu fermamente à piglià u corsu cum'è una squadra. Hè per quessa chì offremu grandi sconti per i gruppi pronti.

U prezzu di u cursu hè di 60 000 ₽ per persona.
Se una cumpagnia manda un gruppu di 5+ persone - 40 000 ₽.

U cursu hè custruitu nantu à Kubernetes. Per passà, avete bisognu di cunnosce Kubernetes à un livellu basicu. Se ùn travagliate micca cun ellu, pudete passà per Slurm Basic (онлайн o intensivu 18-20 nuvembre).
Inoltre, avete bisognu à esse prufessore in Linux è cunnosce Gitlab è Prometheus.

iscrizzione

Sè vo avete un 'idea cumplessa di participazione, per esempiu, per u CEO, CTO è una squadra di sviluppori à vene à u corsu, è per elli à sottumette un stasgiu pigghiannu contu a gestione verticale, scrivite à mè in un missaghju persunale.

Source: www.habr.com

Add a comment