„Speranța este o strategie proastă.” SRE intensiv la Moscova, 3-5 februarie

Anunțăm primul curs practic despre SRE în Rusia: Slurm SRE.

În timpul intensivului vom petrece trei zile construind, spargând, reparând și îmbunătățind un site web agregator pentru vânzarea biletelor de film.

„Speranța este o strategie proastă.” SRE intensiv la Moscova, 3-5 februarie

Am ales un agregator de bilete pentru că are multe scenarii de eșec: un aflux de vizitatori și atacuri DDoS, eșecul unuia dintre numeroasele microservicii critice (autorizare, rezervări, procesare plăți), indisponibilitatea unuia dintre numeroasele cinematografe (schimb de date despre locuri disponibile și rezervări), și mai jos în listă.

Vom formula conceptul de Fiabilitate pentru site-ul nostru de agregare, pe care îl vom dezvolta în continuare în Inginerie, vom analiza proiectarea din punct de vedere al SRE, vom selecta metrici, vom configura monitorizarea acestora, vom elimina incidentele emergente, vom desfășura training pentru lucrul în echipă cu incidente. în condiții apropiate de luptă, organizați un debriefing .

Programul este condus de angajații Booking.com și Google.
De data aceasta nu va exista participare la distanță: cursul este construit pe interacțiunea personală și lucrul în echipă.

Detalii sub croiala

Difuzoare

Ivan Kruglov
Dezvoltator principal la Booking.com (Olanda)
De când s-a alăturat Booking.com în 2013, a lucrat la proiecte de infrastructură, cum ar fi livrarea și procesarea mesajelor distribuite, BigData și web-stack, căutare.
În prezent, se lucrează la probleme legate de construirea unui cloud intern și Service Mesh.

Ben Tyler
Dezvoltator principal la Booking.com (SUA)
Implicat în dezvoltarea internă a platformei Booking.com.
Specializată în rețeaua de servicii/descoperirea serviciului, programarea loturilor de muncă, răspunsul la incident și procesul post-mortem.
Vorbește și predă în rusă.

Evgenii Varavva
Dezvoltator general la Google (San Francisco).
Experiență de la proiecte web cu încărcare mare la cercetare în viziune computerizată și robotică.
Din 2011, este implicat în crearea și operarea sistemelor distribuite la Google, participând la întregul ciclu de viață al proiectului: conceptualizare, design și arhitectură, lansare, pliere și toate etapele intermediare.

Eduard Medvedev
CTO la Tungsten Labs (Germania)
A lucrat ca inginer la StackStorm, responsabil pentru funcționalitatea ChatOps a platformei. Dezvoltat și implementat ChatOps pentru automatizarea centrelor de date. Speaker la conferințe rusești și internaționale.

Program

Programul este dezvoltat activ. Acum arată așa, până în februarie se poate îmbunătăți și extinde.

Subiectul #1: Principii și metode de bază ale SRE

  • Ce este nevoie pentru a deveni SRE?
  • DevOps vs SRE
  • De ce dezvoltatorii apreciază SRE și sunt foarte triști când nu sunt în proiect
  • SLI, SLO și SLA
  • Bugetul de eroare și rolul său în SRE

Tema #2: Proiectarea sistemelor distribuite

  • Arhitectura și funcționalitatea aplicației
  • Design non-abstract de sistem mare
  • Operabilitate / Proiectare pentru eșec
  • gRPC sau REST
  • Versiune și compatibilitate cu versiunea inversă

Subiectul #3: Cum este acceptat un proiect SRE

  • Cele mai bune practici de la SRE
  • Lista de verificare pentru acceptarea proiectului
  • Înregistrare, metrici, urmărire
  • Luând CI/CD în propriile noastre mâini

Tema nr. 4: Proiectarea și lansarea unui sistem distribuit

  • Inginerie inversă - cum funcționează sistemul?
  • Suntem de acord cu SLI și SLO
  • Practicați planificarea capacității
  • Lansând traficul către aplicație, utilizatorii noștri încep să o „utilizeze”.
  • Lansarea Prometheus, Grafana, Elastic

Subiectul #5: Monitorizare, observabilitate și alertă

  • Monitorizare vs. Observabilitate
  • Configurarea monitorizării și alertării cu Prometheus
  • Monitorizarea practică a SLI și SLO
  • Simptome vs. Cauze
  • Black-Box vs. Monitorizare cutie albă
  • Monitorizarea distribuită a disponibilității aplicațiilor și serverului
  • 4 semnale de aur (detecție anomalii)

Subiectul nr. 6: Practica de testare a fiabilității sistemului

  • Muncind sub presiune
  • Eșec-injectare
  • Maimuța haosului

Subiectul #7: Practica de răspuns la incident

  • Algoritm de management al stresului
  • Interacțiunea dintre participanții la incident
  • Post-mortem
  • Impartasire de cunostinte
  • Modelarea culturii
  • Monitorizarea defecțiunilor
  • Efectuarea unui debriefing fără vină

Subiectul #8: Practici de management al încărcăturii

  • Echilibrarea sarcinii
  • Toleranță la erori de aplicație: reîncercare, timeout, injecție de defecțiuni, întrerupător
  • DDoS (crearea încărcăturii) + Eșecuri în cascadă

Subiectul #9: Răspunsul la incident

  • Rezumat
  • Practică de gardă
  • Diverse tipuri de accidente (testare, modificări de configurare, defecțiuni hardware)
  • Protocoale de management al incidentelor

Subiectul #10: Diagnosticul și rezolvarea problemelor

  • Logare
  • Depanare
  • Exersați analiza și depanarea aplicației noastre

Subiectul #11: Testarea fiabilității sistemului

  • Testare stresanta
  • Testarea configurației
  • Test de performanta
  • Eliberare canarină

Subiectul nr. 12: Lucru independent și revizuire

Recomandări și cerințe pentru participanți

SRE este un efort de echipă. Vă recomandăm insistent să urmați cursul în echipă. De aceea oferim reduceri mari pentru echipele gata făcute.

Prețul cursului este de 60 ₽ de persoană.
Dacă o companie trimite un grup de peste 5 persoane - 40 ₽.

Cursul este construit pe Kubernetes. Pentru a trece, trebuie să cunoști Kubernetes la un nivel de bază. Dacă nu lucrezi cu el, poți trece prin Slurm Basic (онлайн sau intensiv 18-20 noiembrie).
În plus, trebuie să fii priceput în Linux și să cunoști Gitlab și Prometheus.

înregistrare

Dacă aveți o idee complexă de participare, de exemplu, ca CEO-ul, CTO și o echipă de dezvoltatori să vină la curs și să facă un stagiu ținând cont de verticala managementului, scrieți-mi într-un mesaj personal.

Sursa: www.habr.com

Adauga un comentariu