"Hopp är en dålig strategi." SRE intensiv i Moskva, 3-5 februari
Vi tillkännager den första praktiska kursen om SRE i Ryssland: Slurm SRE.
Under intensiven kommer vi att ägna tre dagar åt att bygga, bryta, reparera och förbättra en aggregatorwebbplats för att sälja biobiljetter.
Vi valde en biljettaggregator eftersom den har många misslyckande scenarier: en tillströmning av besökare och DDoS-attacker, misslyckandet i en av de många kritiska mikrotjänsterna (auktorisering, reservationer, betalningshantering), otillgängligheten på en av de många biograferna (datautbyte om tillgängliga platser och bokningar), och längre ner i listan.
Vi kommer att formulera konceptet Reliability för vår aggregatorsajt, som vi kommer att vidareutveckla inom Engineering, analysera designen ur SRE-synpunkt, välja mätvärden, ställa in deras övervakning, eliminera nya incidenter, genomföra utbildning för teamarbete med incidenter under förhållanden nära strid, organisera en debriefing.
Programmet drivs av anställda på Booking.com och Google.
Den här gången blir det inget distansdeltagande: kursen bygger på personlig interaktion och lagarbete.
Detaljer under snittet
Högtalare
Ivan Kruglov
Huvudutvecklare på Booking.com (Nederländerna)
Sedan han började på Booking.com 2013 har han arbetat med infrastrukturprojekt som distribuerad meddelandeleverans och bearbetning, BigData och webbstack, sökning.
Arbetar för närvarande med frågor om att bygga ett internt moln och Service Mesh.
Ben Tyler
Huvudutvecklare på Booking.com (USA)
Engagerad i intern utveckling av Booking.com-plattformen.
Specialiserat på servicenät/tjänstupptäckt, schemaläggning av batchjobb, incidentrespons och postmortemprocess.
Talar och undervisar på ryska.
Evgeniy Varavva
Allmän utvecklare på Google (San Francisco).
Erfarenhet från högt belastade webbprojekt till forskning inom datorseende och robotik.
Sedan 2011 har han varit involverad i skapandet och driften av distribuerade system hos Google och deltagit i projektets hela livscykel: konceptualisering, design och arkitektur, lansering, vikning och alla mellanstadier.
Eduard Medvedev
CTO på Tungsten Labs (Tyskland)
Arbetade som ingenjör på StackStorm, ansvarig för ChatOps-funktionaliteten på plattformen. Utvecklade och implementerade ChatOps för datacenterautomation. Talare vid ryska och internationella konferenser.
Program
Programmet utvecklas aktivt. Nu ser det ut så här, till februari kan det förbättras och expandera.
Ämne #1: Grundläggande principer och metoder för SRE
Vad krävs för att bli en SRE?
DevOps vs SRE
Varför utvecklare värdesätter SRE och är väldigt ledsna när de inte är med i projektet
SLI, SLO och SLA
Felbudget och dess roll i SRE
Ämne #2: Design av distribuerade system
Applikationsarkitektur och funktionalitet
Icke-abstrakt design av stort system
Driftbarhet / Design för misslyckande
gRPC eller REST
Versionering och bakåtkompatibilitet
Ämne #3: Hur ett SRE-projekt accepteras
Bästa praxis från SRE
Checklista för projektacceptans
Loggning, mätvärden, spårning
Vi tar CI/CD i egna händer
Ämne nr 4: Design och lansering av ett distribuerat system
Reverse engineering – hur fungerar systemet?
Vi är överens om SLI och SLO
Öva kapacitetsplanering
När vi lanserar trafik till applikationen börjar våra användare "använda" den
Lanserar Prometheus, Grafana, Elastic
Ämne #5: Övervakning, observerbarhet och larm
Övervakning vs. Observerbarhet
Ställa in övervakning och larm med Prometheus
Praktisk övervakning av SLI och SLO
Symtom vs. Orsaker
Black-Box vs. White-Box-övervakning
Distribuerad övervakning av applikations- och servertillgänglighet
4 gyllene signaler (avvikelsedetektering)
Ämne nr 6: Övning av att testa systemtillförlitlighet
Olika typer av olyckor (testning, konfigurationsändringar, hårdvarufel)
Incidenthanteringsprotokoll
Ämne #10: Diagnostik och problemlösning
Skogsavverkning
Felsökning
Öva analys och felsökning på vår applikation
Ämne #11: Systemtillförlitlighetstestning
Stresstestning
Konfigurationstestning
Prestandatester
Canary release
Ämne nr 12: Självständigt arbete och granskning
Rekommendationer och krav på deltagare
SRE är ett lagarbete. Vi rekommenderar starkt att ta kursen som ett team. Det är därför vi erbjuder stora rabatter för färdiga team.
Priset för kursen är 60 000 ₽ per person.
Om ett företag skickar en grupp på 5+ personer - 40 000 ₽.
Kursen är byggd på Kubernetes. För att bli godkänd behöver du kunna Kubernetes på en grundläggande nivå. Om du inte arbetar med honom kan du gå igenom Slurm Basic (онлайн eller intensiv 18-20 november).
Dessutom måste du vara van i Linux och känna till Gitlab och Prometheus.
Om du har en komplex idé för deltagande, till exempel för att VD, CTO och ett team av utvecklare ska komma till kursen, och de genomgår en praktikperiod med hänsyn till managementvertikal, skriv till mig i ett personligt meddelande.