ProHoster > BLOG > administrare > „Speranța este o strategie proastă.” SRE intensiv la Moscova, 3-5 februarie
„Speranța este o strategie proastă.” SRE intensiv la Moscova, 3-5 februarie
Anunțăm primul curs practic despre SRE în Rusia: Slurm SRE.
În timpul intensivului vom petrece trei zile construind, spargând, reparând și îmbunătățind un site web agregator pentru vânzarea biletelor de film.
Am ales un agregator de bilete pentru că are multe scenarii de eșec: un aflux de vizitatori și atacuri DDoS, eșecul unuia dintre numeroasele microservicii critice (autorizare, rezervări, procesare plăți), indisponibilitatea unuia dintre numeroasele cinematografe (schimb de date despre locuri disponibile și rezervări), și mai jos în listă.
Vom formula conceptul de Fiabilitate pentru site-ul nostru de agregare, pe care îl vom dezvolta în continuare în Inginerie, vom analiza proiectarea din punct de vedere al SRE, vom selecta metrici, vom configura monitorizarea acestora, vom elimina incidentele emergente, vom desfășura training pentru lucrul în echipă cu incidente. în condiții apropiate de luptă, organizați un debriefing .
Programul este condus de angajații Booking.com și Google.
De data aceasta nu va exista participare la distanță: cursul este construit pe interacțiunea personală și lucrul în echipă.
Detalii sub croiala
Difuzoare
Ivan Kruglov
Dezvoltator principal la Booking.com (Olanda)
De când s-a alăturat Booking.com în 2013, a lucrat la proiecte de infrastructură, cum ar fi livrarea și procesarea mesajelor distribuite, BigData și web-stack, căutare.
În prezent, se lucrează la probleme legate de construirea unui cloud intern și Service Mesh.
Ben Tyler
Dezvoltator principal la Booking.com (SUA)
Implicat în dezvoltarea internă a platformei Booking.com.
Specializată în rețeaua de servicii/descoperirea serviciului, programarea loturilor de muncă, răspunsul la incident și procesul post-mortem.
Vorbește și predă în rusă.
Evgenii Varavva
Dezvoltator general la Google (San Francisco).
Experiență de la proiecte web cu încărcare mare la cercetare în viziune computerizată și robotică.
Din 2011, este implicat în crearea și operarea sistemelor distribuite la Google, participând la întregul ciclu de viață al proiectului: conceptualizare, design și arhitectură, lansare, pliere și toate etapele intermediare.
Eduard Medvedev
CTO la Tungsten Labs (Germania)
A lucrat ca inginer la StackStorm, responsabil pentru funcționalitatea ChatOps a platformei. Dezvoltat și implementat ChatOps pentru automatizarea centrelor de date. Speaker la conferințe rusești și internaționale.
Program
Programul este dezvoltat activ. Acum arată așa, până în februarie se poate îmbunătăți și extinde.
Subiectul #1: Principii și metode de bază ale SRE
Ce este nevoie pentru a deveni SRE?
DevOps vs SRE
De ce dezvoltatorii apreciază SRE și sunt foarte triști când nu sunt în proiect
SLI, SLO și SLA
Bugetul de eroare și rolul său în SRE
Tema #2: Proiectarea sistemelor distribuite
Arhitectura și funcționalitatea aplicației
Design non-abstract de sistem mare
Operabilitate / Proiectare pentru eșec
gRPC sau REST
Versiune și compatibilitate cu versiunea inversă
Subiectul #3: Cum este acceptat un proiect SRE
Cele mai bune practici de la SRE
Lista de verificare pentru acceptarea proiectului
Înregistrare, metrici, urmărire
Luând CI/CD în propriile noastre mâini
Tema nr. 4: Proiectarea și lansarea unui sistem distribuit
Inginerie inversă - cum funcționează sistemul?
Suntem de acord cu SLI și SLO
Practicați planificarea capacității
Lansând traficul către aplicație, utilizatorii noștri încep să o „utilizeze”.
Lansarea Prometheus, Grafana, Elastic
Subiectul #5: Monitorizare, observabilitate și alertă
Monitorizare vs. Observabilitate
Configurarea monitorizării și alertării cu Prometheus
Monitorizarea practică a SLI și SLO
Simptome vs. Cauze
Black-Box vs. Monitorizare cutie albă
Monitorizarea distribuită a disponibilității aplicațiilor și serverului
4 semnale de aur (detecție anomalii)
Subiectul nr. 6: Practica de testare a fiabilității sistemului
Muncind sub presiune
Eșec-injectare
Maimuța haosului
Subiectul #7: Practica de răspuns la incident
Algoritm de management al stresului
Interacțiunea dintre participanții la incident
Post-mortem
Impartasire de cunostinte
Modelarea culturii
Monitorizarea defecțiunilor
Efectuarea unui debriefing fără vină
Subiectul #8: Practici de management al încărcăturii
Echilibrarea sarcinii
Toleranță la erori de aplicație: reîncercare, timeout, injecție de defecțiuni, întrerupător
DDoS (crearea încărcăturii) + Eșecuri în cascadă
Subiectul #9: Răspunsul la incident
Rezumat
Practică de gardă
Diverse tipuri de accidente (testare, modificări de configurare, defecțiuni hardware)
Protocoale de management al incidentelor
Subiectul #10: Diagnosticul și rezolvarea problemelor
Logare
Depanare
Exersați analiza și depanarea aplicației noastre
Subiectul #11: Testarea fiabilității sistemului
Testare stresanta
Testarea configurației
Test de performanta
Eliberare canarină
Subiectul nr. 12: Lucru independent și revizuire
Recomandări și cerințe pentru participanți
SRE este un efort de echipă. Vă recomandăm insistent să urmați cursul în echipă. De aceea oferim reduceri mari pentru echipele gata făcute.
Prețul cursului este de 60 ₽ de persoană.
Dacă o companie trimite un grup de peste 5 persoane - 40 ₽.
Cursul este construit pe Kubernetes. Pentru a trece, trebuie să cunoști Kubernetes la un nivel de bază. Dacă nu lucrezi cu el, poți trece prin Slurm Basic (онлайн sau intensiv 18-20 noiembrie).
În plus, trebuie să fii priceput în Linux și să cunoști Gitlab și Prometheus.
Dacă aveți o idee complexă de participare, de exemplu, ca CEO-ul, CTO și o echipă de dezvoltatori să vină la curs și să facă un stagiu ținând cont de verticala managementului, scrieți-mi într-un mesaj personal.