"Nádej je zlá stratégia." Intenzívna SRE v Moskve, 3. – 5. februára
Oznamujeme prvý praktický kurz o SRE v Rusku: Slurm SRE.
Počas intenzívneho strávime tri dni budovaním, lámaním, opravami a vylepšovaním webovej stránky agregátora na predaj lístkov do kina.
Zvolili sme agregátor vstupeniek, pretože má veľa scenárov zlyhania: prílev návštevníkov a DDoS útoky, zlyhanie jednej z mnohých kritických mikroslužieb (autorizácia, rezervácie, spracovanie platieb), nedostupnosť jedného z mnohých kín (výmena údajov o voľné miesta a rezervácie) a ďalej v zozname.
Sformulujeme koncept Reliability pre našu agregátorovú stránku, ktorú budeme ďalej rozvíjať v Engineering, analyzovať dizajn z pohľadu SRE, vyberať metriky, nastavovať ich monitorovanie, eliminovať vznikajúce incidenty, robiť školenia pre tímovú prácu s incidentmi v podmienkach blízkych boju zorganizujte brífing .
Program riadia zamestnanci Booking.com a Google.
Tentoraz nebude žiadna účasť na diaľku: kurz je postavený na osobnej interakcii a tímovej práci.
Detaily pod strihom
Reproduktory
Ivan Kruglov
Hlavný vývojár na Booking.com (Holandsko)
Od svojho nástupu na Booking.com v roku 2013 pracoval na projektoch infraštruktúry, ako je distribuované doručovanie a spracovanie správ, BigData a web-stack, vyhľadávanie.
V súčasnosti pracujeme na problémoch budovania interného cloudu a Service Mesh.
Ben Tyler
Hlavný vývojár na Booking.com (USA)
Podieľa sa na internom vývoji platformy Booking.com.
Špecializuje sa na servisnú sieť / zisťovanie služieb, dávkové plánovanie úloh, reakciu na incidenty a posmrtný proces.
Hovorí a vyučuje v ruštine.
Jevgenij Varavva
General Developer v Google (San Francisco).
Skúsenosti z vysoko zaťažených webových projektov až po výskum v oblasti počítačového videnia a robotiky.
Od roku 2011 sa podieľa na tvorbe a prevádzke distribuovaných systémov v spoločnosti Google, pričom sa podieľa na celom životnom cykle projektu: konceptualizácia, dizajn a architektúra, spustenie, skladanie a všetky medzistupne.
Eduard Medvedev
CTO v Tungsten Labs (Nemecko)
Pracoval ako inžinier v StackStorm, zodpovedný za funkčnosť platformy ChatOps. Vyvinutý a implementovaný ChatOps pre automatizáciu dátových centier. Rečník na ruských a medzinárodných konferenciách.
Program
Program sa aktívne rozvíja. Teraz to vyzerá takto, do februára sa to môže zlepšiť a rozšíriť.
Téma #1: Základné princípy a metódy SRE
Čo je potrebné na to, aby ste sa stali SRE?
DevOps vs SRE
Prečo si vývojári vážia SRE a sú veľmi smutní, keď nie sú v projekte
SLI, SLO a SLA
Chybový rozpočet a jeho úloha v SRE
Téma #2: Návrh distribuovaných systémov
Architektúra a funkčnosť aplikácie
Neabstraktný dizajn veľkého systému
Funkčnosť / dizajn pre zlyhanie
gRPC alebo REST
Verzia a spätná kompatibilita
Téma #3: Ako sa prijíma projekt SRE
Osvedčené postupy od SRE
Kontrolný zoznam prijatia projektu
Logovanie, metriky, sledovanie
Berieme CI/CD do vlastných rúk
Téma č.4: Návrh a spustenie distribuovaného systému
Reverzné inžinierstvo – ako systém funguje?
Dohodneme sa na SLI a SLO
Precvičte si plánovanie kapacity
Po spustení návštevnosti aplikácie ju naši používatelia začnú „používať“.
Spustenie Prometheus, Grafana, Elastic
Téma č. 5: Monitorovanie, pozorovateľnosť a varovanie
Monitoring vs. Pozorovateľnosť
Nastavenie monitorovania a varovania pomocou Prometheus
Praktické sledovanie SLI a SLO
Symptómy vs. Príčiny
Black-Box vs. Monitoring White-Box
Distribuovaný monitoring dostupnosti aplikácií a serverov
Rôzne typy nehôd (testovanie, zmeny konfigurácie, zlyhanie hardvéru)
Protokoly riadenia incidentov
Téma #10: Diagnostika a riešenie problémov
Ťažba dreva
ladenie
Precvičte si analýzu a ladenie našej aplikácie
Téma #11: Testovanie spoľahlivosti systému
Záťažové testovanie
Testovanie konfigurácie
Testovanie výkonu
Kanárske prepustenie
Téma č.12: Samostatná práca a recenzia
Odporúčania a požiadavky pre účastníkov
SRE je tímová práca. Dôrazne odporúčame absolvovať kurz ako tím. Preto ponúkame veľké zľavy pre hotové tímy.
Cena kurzu je 60 000 ₽ na osobu.
Ak spoločnosť pošle skupinu 5+ ľudí - 40 000 ₽.
Kurz je postavený na Kubernetes. Ak chcete prejsť, musíte poznať Kubernetes na základnej úrovni. Ak s ním nepracujete, môžete prejsť cez Slurm Basic (онлайн alebo intenzívne 18.-20).
Okrem toho musíte ovládať Linux a poznať Gitlab a Prometheus.
Ak máte komplexnú predstavu o účasti, napríklad, aby na kurz prišiel CEO, CTO a tím vývojárov a aby absolvovali stáž s prihliadnutím na vertikálu riadenia, napíšte mi do osobnej správy.