"Hopp är en dålig strategi." SRE intensiv i Moskva, 3-5 februari

Vi tillkännager den första praktiska kursen om SRE i Ryssland: Slurm SRE.

Under intensiven kommer vi att ägna tre dagar åt att bygga, bryta, reparera och förbättra en aggregatorwebbplats för att sälja biobiljetter.

"Hopp är en dålig strategi." SRE intensiv i Moskva, 3-5 februari

Vi valde en biljettaggregator eftersom den har många misslyckande scenarier: en tillströmning av besökare och DDoS-attacker, misslyckandet i en av de många kritiska mikrotjänsterna (auktorisering, reservationer, betalningshantering), otillgängligheten på en av de många biograferna (datautbyte om tillgängliga platser och bokningar), och längre ner i listan.

Vi kommer att formulera konceptet Reliability för vår aggregatorsajt, som vi kommer att vidareutveckla inom Engineering, analysera designen ur SRE-synpunkt, välja mätvärden, ställa in deras övervakning, eliminera nya incidenter, genomföra utbildning för teamarbete med incidenter under förhållanden nära strid, organisera en debriefing.

Programmet drivs av anställda på Booking.com och Google.
Den här gången blir det inget distansdeltagande: kursen bygger på personlig interaktion och lagarbete.

Detaljer under snittet

Högtalare

Ivan Kruglov
Huvudutvecklare på Booking.com (Nederländerna)
Sedan han började på Booking.com 2013 har han arbetat med infrastrukturprojekt som distribuerad meddelandeleverans och bearbetning, BigData och webbstack, sökning.
Arbetar för närvarande med frågor om att bygga ett internt moln och Service Mesh.

Ben Tyler
Huvudutvecklare på Booking.com (USA)
Engagerad i intern utveckling av Booking.com-plattformen.
Specialiserat på servicenät/tjänstupptäckt, schemaläggning av batchjobb, incidentrespons och postmortemprocess.
Talar och undervisar på ryska.

Evgeniy Varavva
Allmän utvecklare på Google (San Francisco).
Erfarenhet från högt belastade webbprojekt till forskning inom datorseende och robotik.
Sedan 2011 har han varit involverad i skapandet och driften av distribuerade system hos Google och deltagit i projektets hela livscykel: konceptualisering, design och arkitektur, lansering, vikning och alla mellanstadier.

Eduard Medvedev
CTO på Tungsten Labs (Tyskland)
Arbetade som ingenjör på StackStorm, ansvarig för ChatOps-funktionaliteten på plattformen. Utvecklade och implementerade ChatOps för datacenterautomation. Talare vid ryska och internationella konferenser.

Program

Programmet utvecklas aktivt. Nu ser det ut så här, till februari kan det förbättras och expandera.

Ämne #1: Grundläggande principer och metoder för SRE

  • Vad krävs för att bli en SRE?
  • DevOps vs SRE
  • Varför utvecklare värdesätter SRE och är väldigt ledsna när de inte är med i projektet
  • SLI, SLO och SLA
  • Felbudget och dess roll i SRE

Ämne #2: Design av distribuerade system

  • Applikationsarkitektur och funktionalitet
  • Icke-abstrakt design av stort system
  • Driftbarhet / Design för misslyckande
  • gRPC eller REST
  • Versionering och bakåtkompatibilitet

Ämne #3: Hur ett SRE-projekt accepteras

  • Bästa praxis från SRE
  • Checklista för projektacceptans
  • Loggning, mätvärden, spårning
  • Vi tar CI/CD i egna händer

Ämne nr 4: Design och lansering av ett distribuerat system

  • Reverse engineering – hur fungerar systemet?
  • Vi är överens om SLI och SLO
  • Öva kapacitetsplanering
  • När vi lanserar trafik till applikationen börjar våra användare "använda" den
  • Lanserar Prometheus, Grafana, Elastic

Ämne #5: Övervakning, observerbarhet och larm

  • Övervakning vs. Observerbarhet
  • Ställa in övervakning och larm med Prometheus
  • Praktisk övervakning av SLI och SLO
  • Symtom vs. Orsaker
  • Black-Box vs. White-Box-övervakning
  • Distribuerad övervakning av applikations- och servertillgänglighet
  • 4 gyllene signaler (avvikelsedetektering)

Ämne nr 6: Övning av att testa systemtillförlitlighet

  • Arbeta under press
  • Felinjektion
  • Kaosapa

Ämne #7: Incident respons praxis

  • Stresshanteringsalgoritm
  • Interaktion mellan incidentdeltagare
  • Постмортем
  • Kunskapsdelning
  • Forma kulturen
  • Felövervakning
  • Genomför oklanderlig debriefing

Ämne #8: Lasthanteringsmetoder

  • Lastbalansering
  • Applikationsfeltolerans: försök igen, timeout, felinsprutning, strömbrytare
  • DDoS (skapar belastning) + Kaskadfel

Ämne #9: Incident Response

  • Briefing
  • Jourövning
  • Olika typer av olyckor (testning, konfigurationsändringar, hårdvarufel)
  • Incidenthanteringsprotokoll

Ämne #10: Diagnostik och problemlösning

  • Skogsavverkning
  • Felsökning
  • Öva analys och felsökning på vår applikation

Ämne #11: Systemtillförlitlighetstestning

  • Stresstestning
  • Konfigurationstestning
  • Prestandatester
  • Canary release

Ämne nr 12: Självständigt arbete och granskning

Rekommendationer och krav på deltagare

SRE är ett lagarbete. Vi rekommenderar starkt att ta kursen som ett team. Det är därför vi erbjuder stora rabatter för färdiga team.

Priset för kursen är 60 000 ₽ per person.
Om ett företag skickar en grupp på 5+ personer - 40 000 ₽.

Kursen är byggd på Kubernetes. För att bli godkänd behöver du kunna Kubernetes på en grundläggande nivå. Om du inte arbetar med honom kan du gå igenom Slurm Basic (онлайн eller intensiv 18-20 november).
Dessutom måste du vara van i Linux och känna till Gitlab och Prometheus.

Bli medlem

Om du har en komplex idé för deltagande, till exempel för att VD, CTO och ett team av utvecklare ska komma till kursen, och de genomgår en praktikperiod med hänsyn till managementvertikal, skriv till mig i ett personligt meddelande.

Källa: will.com

Lägg en kommentar