"Naděje je špatná strategie." Intenzivní SRE v Moskvě, 3.–5. února

Oznamujeme první praktický kurz SRE v Rusku: Slurm SRE.

Během intenzivního strávíme tři dny budováním, lámáním, opravami a vylepšováním webu agregátoru pro prodej vstupenek do kina.

"Naděje je špatná strategie." Intenzivní SRE v Moskvě, 3.–5. února

Zvolili jsme agregátor vstupenek, protože má mnoho scénářů selhání: příliv návštěvníků a útoky DDoS, selhání jedné z mnoha kritických mikroslužeb (autorizace, rezervace, zpracování plateb), nedostupnost jednoho z mnoha kin (výměna dat o dostupná místa a rezervace) a dále v seznamu.

Zformulujeme koncept Reliability pro náš agregátorový web, který dále rozvineme v Engineering, analyzujeme návrh z pohledu SRE, vybereme metriky, nastavíme jejich sledování, eliminujeme vznikající incidenty, provedeme školení pro týmovou práci s incidenty v podmínkách blízkých boji uspořádat debriefing .

Program provozují zaměstnanci Booking.com a Google.
Tentokrát nebude účast na dálku: kurz je postaven na osobní interakci a týmové práci.

Detaily pod střihem

Řečníci

Ivan Kruglov
Hlavní vývojář na Booking.com (Nizozemsko)
Od svého nástupu na Booking.com v roce 2013 pracoval na infrastrukturních projektech, jako je distribuované doručování a zpracování zpráv, BigData a web-stack, vyhledávání.
V současné době pracujeme na otázkách budování interního cloudu a Service Mesh.

Ben Tyler
Hlavní vývojář na Booking.com (USA)
Podílí se na interním vývoji platformy Booking.com.
Specializuje se na síť služeb / zjišťování služeb, plánování dávkových úloh, odezvu na incidenty a posmrtný proces.
Hovoří a vyučuje v ruštině.

Jevgenij Varavva
General Developer ve společnosti Google (San Francisco).
Zkušenosti z vysoce zátěžových webových projektů po výzkum v oblasti počítačového vidění a robotiky.
Od roku 2011 se podílí na tvorbě a provozu distribuovaných systémů ve společnosti Google, podílí se na celém životním cyklu projektu: konceptualizace, design a architektura, spuštění, skládání a všechny mezistupně.

Eduard Medveděv
CTO ve společnosti Tungsten Labs (Německo)
Pracoval jako inženýr ve společnosti StackStorm, zodpovědný za funkčnost platformy ChatOps. Vyvinutý a implementovaný ChatOps pro automatizaci datových center. Přednášející na ruských a mezinárodních konferencích.

Program

Program se aktivně vyvíjí. Teď to vypadá takto, do února se to možná zlepší a rozšíří.

Téma #1: Základní principy a metody SRE

  • Co je potřeba k tomu, abyste se stali SRE?
  • DevOps vs SRE
  • Proč si vývojáři cení SRE a jsou velmi smutní, když nejsou v projektu
  • SLI, SLO a SLA
  • Chybový rozpočet a jeho role v SRE

Téma #2: Návrh distribuovaných systémů

  • Architektura a funkčnost aplikace
  • Neabstraktní design velkého systému
  • Provozuschopnost / konstrukce pro selhání
  • gRPC nebo REST
  • Verze a zpětná kompatibilita

Téma #3: Jak je přijímán projekt SRE

  • Osvědčené postupy od SRE
  • Kontrolní seznam pro přijetí projektu
  • Logování, metriky, sledování
  • Bereme CI/CD do vlastních rukou

Téma č. 4: Návrh a spuštění distribuovaného systému

  • Reverzní inženýrství – jak systém funguje?
  • Shodneme se na SLI a SLO
  • Procvičte si plánování kapacit
  • Spuštěním návštěvnosti aplikace ji naši uživatelé začnou „používat“.
  • Spuštění Prometheus, Grafana, Elastic

Téma #5: Monitorování, pozorovatelnost a varování

  • Monitoring vs. Pozorovatelnost
  • Nastavení monitorování a upozornění pomocí Prometheus
  • Praktické monitorování SLI a SLO
  • Příznaky vs. Příčiny
  • Black-Box vs. Monitoring White-Box
  • Distribuovaný monitoring dostupnosti aplikací a serverů
  • 4 zlaté signály (detekce anomálie)

Téma č. 6: Praxe testování spolehlivosti systému

  • Pracovat pod tlakem
  • Selhání-vstřik
  • Chaos Monkey

Téma #7: Nácvik reakce na incidenty

  • Algoritmus řízení stresu
  • Interakce mezi účastníky incidentu
  • Postmortem
  • Sdílení znalostí
  • Formování kultury
  • Sledování poruch
  • Provádění bezúhonných debrífingů

Téma #8: Postupy řízení zátěže

  • Vyvažování zátěže
  • Odolnost proti chybám aplikace: opakování pokusu, časový limit, injekce při selhání, jistič
  • DDoS (vytváření zatížení) + kaskádové selhání

Téma #9: Reakce na incident

  • Debriefing
  • On-Call praxe
  • Různé typy nehod (testování, změny konfigurace, selhání hardwaru)
  • Protokoly řízení incidentů

Téma #10: Diagnostika a řešení problémů

  • Protokolování
  • Ladění
  • Procvičte si analýzu a ladění naší aplikace

Téma #11: Testování spolehlivosti systému

  • Zátěžové testování
  • Testování konfigurace
  • Testování výkonu
  • Kanárské propuštění

Téma č. 12: Samostatná práce a recenze

Doporučení a požadavky na účastníky

SRE je týmová práce. Důrazně doporučujeme absolvovat kurz jako tým. Proto nabízíme velké slevy pro hotové týmy.

Cena kurzu je 60 000 ₽ na osobu.
Pokud společnost pošle skupinu 5+ lidí - 40 000 ₽.

Kurz je postaven na Kubernetes. Chcete-li projít, musíte znát Kubernetes na základní úrovni. Pokud s ním nepracujete, můžete projít Slurm Basic (онлайн nebo intenzivní 18.-20).
Navíc je potřeba ovládat Linux a znát Gitlab a Prometheus.

Registrace

Pokud máte komplexní představu o účasti, např. pro CEO, CTO a tým vývojářů, aby na kurz přišli a aby absolvovali stáž s přihlédnutím k manažerské vertikále, napište mi do osobní zprávy.

Zdroj: www.habr.com

Přidat komentář