"Håb er en dårlig strategi." SRE intensiv i Moskva, 3.-5. februar
Vi annoncerer det første praktiske kursus om SRE i Rusland: Slurm SRE.
I løbet af intensiven vil vi bruge tre dage på at bygge, nedbryde, reparere og forbedre et aggregatorwebsted til salg af biografbilletter.
Vi valgte en billetaggregator, fordi den har mange fejlscenarier: en tilstrømning af besøgende og DDoS-angreb, svigt af en af de mange kritiske mikrotjenester (autorisation, reservationer, betalingsbehandling), utilgængeligheden af en af de mange biografer (dataudveksling ca. ledige pladser og reservationer), og længere nede på listen.
Vi vil formulere konceptet Reliabilitet for vores aggregator-site, som vi vil videreudvikle i Engineering, analysere designet ud fra et SRE-synspunkt, udvælge metrikker, opsætte deres overvågning, eliminere nye hændelser, gennemføre træning til teamarbejde med hændelser under forhold tæt på kamp, arrangere en debriefing.
Programmet drives af medarbejdere hos Booking.com og Google.
Denne gang vil der ikke være fjerndeltagelse: Kurset er bygget på personlig interaktion og teamwork.
Detaljer under snittet
Højttalere
Ivan Kruglov
Hovedudvikler hos Booking.com (Holland)
Siden han kom til Booking.com i 2013, har han arbejdet på infrastrukturprojekter såsom distribueret meddelelseslevering og -behandling, BigData og web-stack, søgning.
Arbejder i øjeblikket med spørgsmål om opbygning af en intern cloud og Service Mesh.
Ben Tyler
Hovedudvikler hos Booking.com (USA)
Engageret i intern udvikling af Booking.com platformen.
Specialiseret i servicenet/serviceopdagelse, batchjobplanlægning, hændelsesrespons og postmortem-proces.
Taler og underviser på russisk.
Evgeniy Varavva
Generel udvikler hos Google (San Francisco).
Erfaring fra højbelastede webprojekter til forskning i computervision og robotteknologi.
Siden 2011 har han været involveret i skabelsen og driften af distribuerede systemer hos Google og deltaget i projektets fulde livscyklus: konceptualisering, design og arkitektur, lancering, foldning og alle mellemstadier.
Eduard Medvedev
CTO hos Tungsten Labs (Tyskland)
Arbejdede som ingeniør hos StackStorm, ansvarlig for platformens ChatOps funktionalitet. Udviklede og implementerede ChatOps til automatisering af datacenter. Foredragsholder ved russiske og internationale konferencer.
Program
Programmet udvikles aktivt. Nu ser det sådan ud, at til februar kan det forbedres og udvides.
Emne #1: Grundlæggende principper og metoder for SRE
Hvad skal der til for at blive SRE?
DevOps vs SRE
Hvorfor udviklere værdsætter SRE og er meget kede af det, når de ikke er med i projektet
SLI, SLO og SLA
Fejlbudget og dets rolle i SRE
Emne #2: Design af distribuerede systemer
Applikationsarkitektur og funktionalitet
Ikke-abstrakt stort systemdesign
Driftsevne / Design for fiasko
gRPC eller REST
Versionering og bagudkompatibilitet
Emne #3: Hvordan et SRE-projekt accepteres
Bedste praksis fra SRE
Tjekliste for projektaccept
Logning, metrikker, sporing
Vi tager CI/CD i egne hænder
Emne nr. 4: Design og lancering af et distribueret system
Reverse engineering - hvordan fungerer systemet?
Vi er enige om SLI og SLO
Øv kapacitetsplanlægning
Når vi starter trafik til applikationen, begynder vores brugere at "bruge" den
Lancering af Prometheus, Grafana, Elastic
Emne #5: Overvågning, observerbarhed og alarmering
Overvågning vs. Observerbarhed
Opsætning af overvågning og alarmering med Prometheus
Praktisk overvågning af SLI og SLO
Symptomer vs. Årsager
Black-Box vs. White-Box overvågning
Distribueret overvågning af applikations- og servertilgængelighed
4 gyldne signaler (detektion af anomalier)
Emne nr. 6: Praksis i at teste systemets pålidelighed
Forskellige typer uheld (test, konfigurationsændringer, hardwarefejl)
Incident management protokoller
Emne #10: Diagnose og problemløsning
Logning
Fejlfinding
Øv analyse og fejlretning på vores applikation
Emne #11: Test af systempålidelighed
Stresstest
Konfigurationstest
Præstationstest
Kanarisk udgivelse
Emne nr. 12: Selvstændigt arbejde og gennemgang
Anbefalinger og krav til deltagere
SRE er en teamindsats. Vi anbefaler stærkt at tage kurset som et team. Derfor tilbyder vi store rabatter til færdige hold.
Prisen for kurset er 60 ₽ per person.
Hvis en virksomhed sender en gruppe på 5+ personer - 40 ₽.
Kurset er bygget på Kubernetes. For at bestå skal du kende Kubernetes på et grundlæggende niveau. Hvis du ikke arbejder med ham, kan du gå gennem Slurm Basic (онлайн eller intensiv 18.-20. november).
Derudover skal du være dygtig til Linux og kende Gitlab og Prometheus.
Har du en kompleks idé til deltagelse, for eksempel til at CEO, CTO og et team af udviklere kommer på kurset, og at de skal i praktik under hensyntagen til ledelsesvertikalen, så skriv til mig i en personlig besked.