"Nádej je zlá stratégia." Intenzívna SRE v Moskve, 3. – 5. februára

Oznamujeme prvý praktický kurz o SRE v Rusku: Slurm SRE.

Počas intenzívneho strávime tri dni budovaním, lámaním, opravami a vylepšovaním webovej stránky agregátora na predaj lístkov do kina.

"Nádej je zlá stratégia." Intenzívna SRE v Moskve, 3. – 5. februára

Zvolili sme agregátor vstupeniek, pretože má veľa scenárov zlyhania: prílev návštevníkov a DDoS útoky, zlyhanie jednej z mnohých kritických mikroslužieb (autorizácia, rezervácie, spracovanie platieb), nedostupnosť jedného z mnohých kín (výmena údajov o voľné miesta a rezervácie) a ďalej v zozname.

Sformulujeme koncept Reliability pre našu agregátorovú stránku, ktorú budeme ďalej rozvíjať v Engineering, analyzovať dizajn z pohľadu SRE, vyberať metriky, nastavovať ich monitorovanie, eliminovať vznikajúce incidenty, robiť školenia pre tímovú prácu s incidentmi v podmienkach blízkych boju zorganizujte brífing .

Program riadia zamestnanci Booking.com a Google.
Tentoraz nebude žiadna účasť na diaľku: kurz je postavený na osobnej interakcii a tímovej práci.

Detaily pod strihom

Reproduktory

Ivan Kruglov
Hlavný vývojár na Booking.com (Holandsko)
Od svojho nástupu na Booking.com v roku 2013 pracoval na projektoch infraštruktúry, ako je distribuované doručovanie a spracovanie správ, BigData a web-stack, vyhľadávanie.
V súčasnosti pracujeme na problémoch budovania interného cloudu a Service Mesh.

Ben Tyler
Hlavný vývojár na Booking.com (USA)
Podieľa sa na internom vývoji platformy Booking.com.
Špecializuje sa na servisnú sieť / zisťovanie služieb, dávkové plánovanie úloh, reakciu na incidenty a posmrtný proces.
Hovorí a vyučuje v ruštine.

Jevgenij Varavva
General Developer v Google (San Francisco).
Skúsenosti z vysoko zaťažených webových projektov až po výskum v oblasti počítačového videnia a robotiky.
Od roku 2011 sa podieľa na tvorbe a prevádzke distribuovaných systémov v spoločnosti Google, pričom sa podieľa na celom životnom cykle projektu: konceptualizácia, dizajn a architektúra, spustenie, skladanie a všetky medzistupne.

Eduard Medvedev
CTO v Tungsten Labs (Nemecko)
Pracoval ako inžinier v StackStorm, zodpovedný za funkčnosť platformy ChatOps. Vyvinutý a implementovaný ChatOps pre automatizáciu dátových centier. Rečník na ruských a medzinárodných konferenciách.

Program

Program sa aktívne rozvíja. Teraz to vyzerá takto, do februára sa to môže zlepšiť a rozšíriť.

Téma #1: Základné princípy a metódy SRE

  • Čo je potrebné na to, aby ste sa stali SRE?
  • DevOps vs SRE
  • Prečo si vývojári vážia SRE a sú veľmi smutní, keď nie sú v projekte
  • SLI, SLO a SLA
  • Chybový rozpočet a jeho úloha v SRE

Téma #2: Návrh distribuovaných systémov

  • Architektúra a funkčnosť aplikácie
  • Neabstraktný dizajn veľkého systému
  • Funkčnosť / dizajn pre zlyhanie
  • gRPC alebo REST
  • Verzia a spätná kompatibilita

Téma #3: Ako sa prijíma projekt SRE

  • Osvedčené postupy od SRE
  • Kontrolný zoznam prijatia projektu
  • Logovanie, metriky, sledovanie
  • Berieme CI/CD do vlastných rúk

Téma č.4: Návrh a spustenie distribuovaného systému

  • Reverzné inžinierstvo – ako systém funguje?
  • Dohodneme sa na SLI a SLO
  • Precvičte si plánovanie kapacity
  • Po spustení návštevnosti aplikácie ju naši používatelia začnú „používať“.
  • Spustenie Prometheus, Grafana, Elastic

Téma č. 5: Monitorovanie, pozorovateľnosť a varovanie

  • Monitoring vs. Pozorovateľnosť
  • Nastavenie monitorovania a varovania pomocou Prometheus
  • Praktické sledovanie SLI a SLO
  • Symptómy vs. Príčiny
  • Black-Box vs. Monitoring White-Box
  • Distribuovaný monitoring dostupnosti aplikácií a serverov
  • 4 zlaté signály (detekcia anomálií)

Téma č.6: Prax testovania spoľahlivosti systému

  • Práca pod tlakom
  • Porucha-vstrekovanie
  • Chaos Monkey

Téma č. 7: Nácvik reakcie na incidenty

  • Algoritmus zvládania stresu
  • Interakcia medzi účastníkmi incidentu
  • Postmortem
  • Odovzdávanie vedomostí
  • Formovanie kultúry
  • Monitorovanie porúch
  • Vedenie bezúhonného vypočutia

Téma č. 8: Postupy riadenia záťaže

  • Rozdelenie výkonu
  • Odolnosť voči chybám aplikácie: opakovaný pokus, časový limit, zlyhanie vstrekovania, istič
  • DDoS (vytváranie záťaže) + kaskádové zlyhania

Téma #9: Reakcia na incident

  • Zhrnutie
  • On-Call praxe
  • Rôzne typy nehôd (testovanie, zmeny konfigurácie, zlyhanie hardvéru)
  • Protokoly riadenia incidentov

Téma #10: Diagnostika a riešenie problémov

  • Ťažba dreva
  • ladenie
  • Precvičte si analýzu a ladenie našej aplikácie

Téma #11: Testovanie spoľahlivosti systému

  • Záťažové testovanie
  • Testovanie konfigurácie
  • Testovanie výkonu
  • Kanárske prepustenie

Téma č.12: Samostatná práca a recenzia

Odporúčania a požiadavky pre účastníkov

SRE je tímová práca. Dôrazne odporúčame absolvovať kurz ako tím. Preto ponúkame veľké zľavy pre hotové tímy.

Cena kurzu je 60 000 ₽ na osobu.
Ak spoločnosť pošle skupinu 5+ ľudí - 40 000 ₽.

Kurz je postavený na Kubernetes. Ak chcete prejsť, musíte poznať Kubernetes na základnej úrovni. Ak s ním nepracujete, môžete prejsť cez Slurm Basic (онлайн alebo intenzívne 18.-20).
Okrem toho musíte ovládať Linux a poznať Gitlab a Prometheus.

registrácia

Ak máte komplexnú predstavu o účasti, napríklad, aby na kurz prišiel CEO, CTO a tím vývojárov a aby absolvovali stáž s prihliadnutím na vertikálu riadenia, napíšte mi do osobnej správy.

Zdroj: hab.com

Pridať komentár