"Håb er en dårlig strategi." SRE intensiv i Moskva, 3.-5. februar

Vi annoncerer det første praktiske kursus om SRE i Rusland: Slurm SRE.

I løbet af intensiven vil vi bruge tre dage på at bygge, nedbryde, reparere og forbedre et aggregatorwebsted til salg af biografbilletter.

"Håb er en dårlig strategi." SRE intensiv i Moskva, 3.-5. februar

Vi valgte en billetaggregator, fordi den har mange fejlscenarier: en tilstrømning af besøgende og DDoS-angreb, svigt af en af ​​de mange kritiske mikrotjenester (autorisation, reservationer, betalingsbehandling), utilgængeligheden af ​​en af ​​de mange biografer (dataudveksling ca. ledige pladser og reservationer), og længere nede på listen.

Vi vil formulere konceptet Reliabilitet for vores aggregator-site, som vi vil videreudvikle i Engineering, analysere designet ud fra et SRE-synspunkt, udvælge metrikker, opsætte deres overvågning, eliminere nye hændelser, gennemføre træning til teamarbejde med hændelser under forhold tæt på kamp, ​​arrangere en debriefing.

Programmet drives af medarbejdere hos Booking.com og Google.
Denne gang vil der ikke være fjerndeltagelse: Kurset er bygget på personlig interaktion og teamwork.

Detaljer under snittet

Højttalere

Ivan Kruglov
Hovedudvikler hos Booking.com (Holland)
Siden han kom til Booking.com i 2013, har han arbejdet på infrastrukturprojekter såsom distribueret meddelelseslevering og -behandling, BigData og web-stack, søgning.
Arbejder i øjeblikket med spørgsmål om opbygning af en intern cloud og Service Mesh.

Ben Tyler
Hovedudvikler hos Booking.com (USA)
Engageret i intern udvikling af Booking.com platformen.
Specialiseret i servicenet/serviceopdagelse, batchjobplanlægning, hændelsesrespons og postmortem-proces.
Taler og underviser på russisk.

Evgeniy Varavva
Generel udvikler hos Google (San Francisco).
Erfaring fra højbelastede webprojekter til forskning i computervision og robotteknologi.
Siden 2011 har han været involveret i skabelsen og driften af ​​distribuerede systemer hos Google og deltaget i projektets fulde livscyklus: konceptualisering, design og arkitektur, lancering, foldning og alle mellemstadier.

Eduard Medvedev
CTO hos Tungsten Labs (Tyskland)
Arbejdede som ingeniør hos StackStorm, ansvarlig for platformens ChatOps funktionalitet. Udviklede og implementerede ChatOps til automatisering af datacenter. Foredragsholder ved russiske og internationale konferencer.

Program

Programmet udvikles aktivt. Nu ser det sådan ud, at til februar kan det forbedres og udvides.

Emne #1: Grundlæggende principper og metoder for SRE

  • Hvad skal der til for at blive SRE?
  • DevOps vs SRE
  • Hvorfor udviklere værdsætter SRE og er meget kede af det, når de ikke er med i projektet
  • SLI, SLO og SLA
  • Fejlbudget og dets rolle i SRE

Emne #2: Design af distribuerede systemer

  • Applikationsarkitektur og funktionalitet
  • Ikke-abstrakt stort systemdesign
  • Driftsevne / Design for fiasko
  • gRPC eller REST
  • Versionering og bagudkompatibilitet

Emne #3: Hvordan et SRE-projekt accepteres

  • Bedste praksis fra SRE
  • Tjekliste for projektaccept
  • Logning, metrikker, sporing
  • Vi tager CI/CD i egne hænder

Emne nr. 4: Design og lancering af et distribueret system

  • Reverse engineering - hvordan fungerer systemet?
  • Vi er enige om SLI og SLO
  • Øv kapacitetsplanlægning
  • Når vi starter trafik til applikationen, begynder vores brugere at "bruge" den
  • Lancering af Prometheus, Grafana, Elastic

Emne #5: Overvågning, observerbarhed og alarmering

  • Overvågning vs. Observerbarhed
  • Opsætning af overvågning og alarmering med Prometheus
  • Praktisk overvågning af SLI og SLO
  • Symptomer vs. Årsager
  • Black-Box vs. White-Box overvågning
  • Distribueret overvågning af applikations- og servertilgængelighed
  • 4 gyldne signaler (detektion af anomalier)

Emne nr. 6: Praksis i at teste systemets pålidelighed

  • Arbejder under pres
  • Fejl-injektion
  • Kaos abe

Emne #7: Hændelsesberedskabspraksis

  • Stresshåndteringsalgoritme
  • Interaktion mellem hændelsesdeltagere
  • Постмортем
  • Videndeling
  • At forme kulturen
  • Fejlovervågning
  • Gennemførelse af ulastelig debriefing

Emne #8: Load Management Practices

  • Lastbalancering
  • Applikationsfejltolerance: Forsøg igen, timeout, fejlindsprøjtning, strømafbryder
  • DDoS (opretter belastning) + Cascading Failures

Emne #9: Hændelsesrespons

  • debriefing
  • Vagtpraksis
  • Forskellige typer uheld (test, konfigurationsændringer, hardwarefejl)
  • Incident management protokoller

Emne #10: Diagnose og problemløsning

  • Logning
  • Fejlfinding
  • Øv analyse og fejlretning på vores applikation

Emne #11: Test af systempålidelighed

  • Stresstest
  • Konfigurationstest
  • Præstationstest
  • Kanarisk udgivelse

Emne nr. 12: Selvstændigt arbejde og gennemgang

Anbefalinger og krav til deltagere

SRE er en teamindsats. Vi anbefaler stærkt at tage kurset som et team. Derfor tilbyder vi store rabatter til færdige hold.

Prisen for kurset er 60 ₽ per person.
Hvis en virksomhed sender en gruppe på 5+ personer - 40 ₽.

Kurset er bygget på Kubernetes. For at bestå skal du kende Kubernetes på et grundlæggende niveau. Hvis du ikke arbejder med ham, kan du gå gennem Slurm Basic (онлайн eller intensiv 18.-20. november).
Derudover skal du være dygtig til Linux og kende Gitlab og Prometheus.

Tilmeld dig

Har du en kompleks idé til deltagelse, for eksempel til at CEO, CTO og et team af udviklere kommer på kurset, og at de skal i praktik under hensyntagen til ledelsesvertikalen, så skriv til mig i en personlig besked.

Kilde: www.habr.com

Tilføj en kommentar