"Håp er en dårlig strategi." SRE intensiv i Moskva, 3.-5. februar

Vi annonserer det første praktiske kurset om SRE i Russland: Slurm SRE.

I løpet av intensiven vil vi bruke tre dager på å bygge, bryte, reparere og forbedre et aggregatornettsted for salg av kinobilletter.

"Håp er en dårlig strategi." SRE intensiv i Moskva, 3.-5. februar

Vi valgte en billettaggregator fordi den har mange feilscenarier: en tilstrømning av besøkende og DDoS-angrep, svikt i en av de mange kritiske mikrotjenestene (autorisasjon, reservasjoner, betalingsbehandling), utilgjengelighet av en av de mange kinoene (datautveksling ca. ledige plasser og reservasjoner), og lenger ned på listen.

Vi vil formulere konseptet Reliabilitet for vår aggregatorside, som vi skal videreutvikle i Engineering, analysere designet fra SRE-synspunkt, velge beregninger, sette opp deres overvåking, eliminere nye hendelser, gjennomføre opplæring for teamarbeid med hendelser under forhold nær kamp, ​​organiser en debriefing.

Programmet drives av ansatte i Booking.com og Google.
Denne gangen blir det ingen fjerndeltakelse: Kurset er bygget på personlig interaksjon og teamarbeid.

Detaljer under kuttet

Høyttalere

Ivan Kruglov
Hovedutvikler hos Booking.com (Nederland)
Siden han begynte på Booking.com i 2013, har han jobbet med infrastrukturprosjekter som distribuert meldingslevering og -behandling, BigData og web-stack, søk.
Jobber for tiden med spørsmål om å bygge en intern sky og Service Mesh.

Ben Tyler
Hovedutvikler hos Booking.com (USA)
Engasjert i intern utvikling av Booking.com-plattformen.
Spesialiserer seg på service mesh / service discovery, batch jobb planlegging, hendelsesrespons og postmortem prosess.
Snakker og underviser på russisk.

Evgeniy Varavva
Generell utvikler hos Google (San Francisco).
Erfaring fra høylastende nettprosjekter til forskning innen datasyn og robotikk.
Siden 2011 har han vært involvert i opprettelsen og driften av distribuerte systemer hos Google, og deltatt i hele livssyklusen til prosjektet: konseptualisering, design og arkitektur, lansering, folding og alle mellomstadier.

Eduard Medvedev
CTO ved Tungsten Labs (Tyskland)
Jobbet som ingeniør hos StackStorm, ansvarlig for ChatOps-funksjonaliteten til plattformen. Utviklet og implementerte ChatOps for datasenterautomatisering. Foredragsholder ved russiske og internasjonale konferanser.

Program

Programmet utvikles aktivt. Nå ser det slik ut, innen februar kan det forbedres og utvides.

Emne #1: Grunnleggende prinsipper og metoder for SRE

  • Hva skal til for å bli en SRE?
  • DevOps vs SRE
  • Hvorfor utviklere verdsetter SRE og er veldig triste når de ikke er med i prosjektet
  • SLI, SLO og SLA
  • Feilbudsjett og dets rolle i SRE

Tema #2: Design av distribuerte systemer

  • Applikasjonsarkitektur og funksjonalitet
  • Ikke-abstrakt stort systemdesign
  • Driftsdyktighet / Design for feil
  • gRPC eller REST
  • Versjons- og bakoverkompatibilitet

Emne #3: Hvordan et SRE-prosjekt blir akseptert

  • Beste praksis fra SRE
  • Sjekkliste for prosjektaksept
  • Logging, metrikk, sporing
  • Vi tar CI/CD i egne hender

Tema nr. 4: Design og lansering av et distribuert system

  • Reverse engineering – hvordan fungerer systemet?
  • Vi er enige om SLI og SLO
  • Øv kapasitetsplanlegging
  • Når vi starter trafikk til applikasjonen, begynner brukerne våre å "bruke" den
  • Lansering av Prometheus, Grafana, Elastic

Emne #5: Overvåking, observerbarhet og varsling

  • Overvåking vs. Observerbarhet
  • Sette opp overvåking og varsling med Prometheus
  • Praktisk overvåking av SLI og SLO
  • Symptomer vs. Fører til
  • Black-Box vs. White-Box-overvåking
  • Distribuert overvåking av applikasjons- og servertilgjengelighet
  • 4 gylne signaler (avvikdeteksjon)

Emne nr. 6: Praksis for å teste systemets pålitelighet

  • Jobbe under press
  • Feil-injeksjon
  • Kaos Monkey

Emne #7: Hendelsespraksis

  • Stresshåndteringsalgoritme
  • Samhandling mellom hendelsesdeltakere
  • Etter døden
  • Kunnskapsdeling
  • Former kulturen
  • Feilovervåking
  • Gjennomfører feilfri debriefing

Emne #8: Belastningshåndteringspraksis

  • Lastbalansering
  • Applikasjonsfeiltoleranse: forsøk på nytt, tidsavbrudd, feilinjeksjon, strømbryter
  • DDoS (oppretter last) + Cascading Failures

Emne #9: Hendelserespons

  • debriefing
  • Vaktpraksis
  • Ulike typer ulykker (testing, konfigurasjonsendringer, maskinvarefeil)
  • Hendelseshåndteringsprotokoller

Emne #10: Diagnose og problemløsning

  • Hogst
  • Feilsøking
  • Øv på analyse og feilsøking på applikasjonen vår

Emne #11: Systempålitelighetstesting

  • Stresstesting
  • Konfigurasjonstesting
  • Ytelsestesting
  • Kanarisk utgivelse

Tema nr. 12: Selvstendig arbeid og gjennomgang

Anbefalinger og krav til deltakere

SRE er et lagarbeid. Vi anbefaler på det sterkeste å ta kurset som et team. Derfor tilbyr vi store rabatter for ferdiglagde lag.

Prisen for kurset er 60 000 ₽ per person.
Hvis et selskap sender en gruppe på 5+ personer - 40 000 ₽.

Kurset er bygget på Kubernetes. For å bestå må du kunne Kubernetes på et grunnleggende nivå. Hvis du ikke jobber med ham, kan du gå gjennom Slurm Basic (онлайн eller intensiv 18-20 november).
I tillegg må du være dyktig i Linux og kjenne Gitlab og Prometheus.

Registrer deg

Hvis du har en kompleks idé for deltakelse, for eksempel for at administrerende direktør, CTO og et team av utviklere skal komme på kurset, og for at de skal gjennomgå et internship som tar hensyn til ledelsesvertikalen, skriv til meg i en personlig melding.

Kilde: www.habr.com

Legg til en kommentar