"Håp er en dårlig strategi." SRE intensiv i Moskva, 3.-5. februar
Vi annonserer det første praktiske kurset om SRE i Russland: Slurm SRE.
I løpet av intensiven vil vi bruke tre dager på å bygge, bryte, reparere og forbedre et aggregatornettsted for salg av kinobilletter.
Vi valgte en billettaggregator fordi den har mange feilscenarier: en tilstrømning av besøkende og DDoS-angrep, svikt i en av de mange kritiske mikrotjenestene (autorisasjon, reservasjoner, betalingsbehandling), utilgjengelighet av en av de mange kinoene (datautveksling ca. ledige plasser og reservasjoner), og lenger ned på listen.
Vi vil formulere konseptet Reliabilitet for vår aggregatorside, som vi skal videreutvikle i Engineering, analysere designet fra SRE-synspunkt, velge beregninger, sette opp deres overvåking, eliminere nye hendelser, gjennomføre opplæring for teamarbeid med hendelser under forhold nær kamp, organiser en debriefing.
Programmet drives av ansatte i Booking.com og Google.
Denne gangen blir det ingen fjerndeltakelse: Kurset er bygget på personlig interaksjon og teamarbeid.
Detaljer under kuttet
Høyttalere
Ivan Kruglov
Hovedutvikler hos Booking.com (Nederland)
Siden han begynte på Booking.com i 2013, har han jobbet med infrastrukturprosjekter som distribuert meldingslevering og -behandling, BigData og web-stack, søk.
Jobber for tiden med spørsmål om å bygge en intern sky og Service Mesh.
Ben Tyler
Hovedutvikler hos Booking.com (USA)
Engasjert i intern utvikling av Booking.com-plattformen.
Spesialiserer seg på service mesh / service discovery, batch jobb planlegging, hendelsesrespons og postmortem prosess.
Snakker og underviser på russisk.
Evgeniy Varavva
Generell utvikler hos Google (San Francisco).
Erfaring fra høylastende nettprosjekter til forskning innen datasyn og robotikk.
Siden 2011 har han vært involvert i opprettelsen og driften av distribuerte systemer hos Google, og deltatt i hele livssyklusen til prosjektet: konseptualisering, design og arkitektur, lansering, folding og alle mellomstadier.
Eduard Medvedev
CTO ved Tungsten Labs (Tyskland)
Jobbet som ingeniør hos StackStorm, ansvarlig for ChatOps-funksjonaliteten til plattformen. Utviklet og implementerte ChatOps for datasenterautomatisering. Foredragsholder ved russiske og internasjonale konferanser.
Program
Programmet utvikles aktivt. Nå ser det slik ut, innen februar kan det forbedres og utvides.
Emne #1: Grunnleggende prinsipper og metoder for SRE
Hva skal til for å bli en SRE?
DevOps vs SRE
Hvorfor utviklere verdsetter SRE og er veldig triste når de ikke er med i prosjektet
SLI, SLO og SLA
Feilbudsjett og dets rolle i SRE
Tema #2: Design av distribuerte systemer
Applikasjonsarkitektur og funksjonalitet
Ikke-abstrakt stort systemdesign
Driftsdyktighet / Design for feil
gRPC eller REST
Versjons- og bakoverkompatibilitet
Emne #3: Hvordan et SRE-prosjekt blir akseptert
Beste praksis fra SRE
Sjekkliste for prosjektaksept
Logging, metrikk, sporing
Vi tar CI/CD i egne hender
Tema nr. 4: Design og lansering av et distribuert system
Reverse engineering – hvordan fungerer systemet?
Vi er enige om SLI og SLO
Øv kapasitetsplanlegging
Når vi starter trafikk til applikasjonen, begynner brukerne våre å "bruke" den
Lansering av Prometheus, Grafana, Elastic
Emne #5: Overvåking, observerbarhet og varsling
Overvåking vs. Observerbarhet
Sette opp overvåking og varsling med Prometheus
Praktisk overvåking av SLI og SLO
Symptomer vs. Fører til
Black-Box vs. White-Box-overvåking
Distribuert overvåking av applikasjons- og servertilgjengelighet
4 gylne signaler (avvikdeteksjon)
Emne nr. 6: Praksis for å teste systemets pålitelighet
Jobbe under press
Feil-injeksjon
Kaos Monkey
Emne #7: Hendelsespraksis
Stresshåndteringsalgoritme
Samhandling mellom hendelsesdeltakere
Etter døden
Kunnskapsdeling
Former kulturen
Feilovervåking
Gjennomfører feilfri debriefing
Emne #8: Belastningshåndteringspraksis
Lastbalansering
Applikasjonsfeiltoleranse: forsøk på nytt, tidsavbrudd, feilinjeksjon, strømbryter
DDoS (oppretter last) + Cascading Failures
Emne #9: Hendelserespons
debriefing
Vaktpraksis
Ulike typer ulykker (testing, konfigurasjonsendringer, maskinvarefeil)
Hendelseshåndteringsprotokoller
Emne #10: Diagnose og problemløsning
Hogst
Feilsøking
Øv på analyse og feilsøking på applikasjonen vår
Emne #11: Systempålitelighetstesting
Stresstesting
Konfigurasjonstesting
Ytelsestesting
Kanarisk utgivelse
Tema nr. 12: Selvstendig arbeid og gjennomgang
Anbefalinger og krav til deltakere
SRE er et lagarbeid. Vi anbefaler på det sterkeste å ta kurset som et team. Derfor tilbyr vi store rabatter for ferdiglagde lag.
Prisen for kurset er 60 000 ₽ per person.
Hvis et selskap sender en gruppe på 5+ personer - 40 000 ₽.
Kurset er bygget på Kubernetes. For å bestå må du kunne Kubernetes på et grunnleggende nivå. Hvis du ikke jobber med ham, kan du gå gjennom Slurm Basic (онлайн eller intensiv 18-20 november).
I tillegg må du være dyktig i Linux og kjenne Gitlab og Prometheus.
Hvis du har en kompleks idé for deltakelse, for eksempel for at administrerende direktør, CTO og et team av utviklere skal komme på kurset, og for at de skal gjennomgå et internship som tar hensyn til ledelsesvertikalen, skriv til meg i en personlig melding.