ProHoster > Blog > podávání > "Naděje je špatná strategie." Intenzivní SRE v Moskvě, 3.–5. února
"Naděje je špatná strategie." Intenzivní SRE v Moskvě, 3.–5. února
Oznamujeme první praktický kurz SRE v Rusku: Slurm SRE.
Během intenzivního strávíme tři dny budováním, lámáním, opravami a vylepšováním webu agregátoru pro prodej vstupenek do kina.
Zvolili jsme agregátor vstupenek, protože má mnoho scénářů selhání: příliv návštěvníků a útoky DDoS, selhání jedné z mnoha kritických mikroslužeb (autorizace, rezervace, zpracování plateb), nedostupnost jednoho z mnoha kin (výměna dat o dostupná místa a rezervace) a dále v seznamu.
Zformulujeme koncept Reliability pro náš agregátorový web, který dále rozvineme v Engineering, analyzujeme návrh z pohledu SRE, vybereme metriky, nastavíme jejich sledování, eliminujeme vznikající incidenty, provedeme školení pro týmovou práci s incidenty v podmínkách blízkých boji uspořádat debriefing .
Program provozují zaměstnanci Booking.com a Google.
Tentokrát nebude účast na dálku: kurz je postaven na osobní interakci a týmové práci.
Detaily pod střihem
Řečníci
Ivan Kruglov
Hlavní vývojář na Booking.com (Nizozemsko)
Od svého nástupu na Booking.com v roce 2013 pracoval na infrastrukturních projektech, jako je distribuované doručování a zpracování zpráv, BigData a web-stack, vyhledávání.
V současné době pracujeme na otázkách budování interního cloudu a Service Mesh.
Ben Tyler
Hlavní vývojář na Booking.com (USA)
Podílí se na interním vývoji platformy Booking.com.
Specializuje se na síť služeb / zjišťování služeb, plánování dávkových úloh, odezvu na incidenty a posmrtný proces.
Hovoří a vyučuje v ruštině.
Jevgenij Varavva
General Developer ve společnosti Google (San Francisco).
Zkušenosti z vysoce zátěžových webových projektů po výzkum v oblasti počítačového vidění a robotiky.
Od roku 2011 se podílí na tvorbě a provozu distribuovaných systémů ve společnosti Google, podílí se na celém životním cyklu projektu: konceptualizace, design a architektura, spuštění, skládání a všechny mezistupně.
Eduard Medveděv
CTO ve společnosti Tungsten Labs (Německo)
Pracoval jako inženýr ve společnosti StackStorm, zodpovědný za funkčnost platformy ChatOps. Vyvinutý a implementovaný ChatOps pro automatizaci datových center. Přednášející na ruských a mezinárodních konferencích.
Program
Program se aktivně vyvíjí. Teď to vypadá takto, do února se to možná zlepší a rozšíří.
Téma #1: Základní principy a metody SRE
Co je potřeba k tomu, abyste se stali SRE?
DevOps vs SRE
Proč si vývojáři cení SRE a jsou velmi smutní, když nejsou v projektu
SLI, SLO a SLA
Chybový rozpočet a jeho role v SRE
Téma #2: Návrh distribuovaných systémů
Architektura a funkčnost aplikace
Neabstraktní design velkého systému
Provozuschopnost / konstrukce pro selhání
gRPC nebo REST
Verze a zpětná kompatibilita
Téma #3: Jak je přijímán projekt SRE
Osvědčené postupy od SRE
Kontrolní seznam pro přijetí projektu
Logování, metriky, sledování
Bereme CI/CD do vlastních rukou
Téma č. 4: Návrh a spuštění distribuovaného systému
Reverzní inženýrství – jak systém funguje?
Shodneme se na SLI a SLO
Procvičte si plánování kapacit
Spuštěním návštěvnosti aplikace ji naši uživatelé začnou „používat“.
Spuštění Prometheus, Grafana, Elastic
Téma #5: Monitorování, pozorovatelnost a varování
Monitoring vs. Pozorovatelnost
Nastavení monitorování a upozornění pomocí Prometheus
Praktické monitorování SLI a SLO
Příznaky vs. Příčiny
Black-Box vs. Monitoring White-Box
Distribuovaný monitoring dostupnosti aplikací a serverů
4 zlaté signály (detekce anomálie)
Téma č. 6: Praxe testování spolehlivosti systému
Pracovat pod tlakem
Selhání-vstřik
Chaos Monkey
Téma #7: Nácvik reakce na incidenty
Algoritmus řízení stresu
Interakce mezi účastníky incidentu
Postmortem
Sdílení znalostí
Formování kultury
Sledování poruch
Provádění bezúhonných debrífingů
Téma #8: Postupy řízení zátěže
Vyvažování zátěže
Odolnost proti chybám aplikace: opakování pokusu, časový limit, injekce při selhání, jistič
DDoS (vytváření zatížení) + kaskádové selhání
Téma #9: Reakce na incident
Debriefing
On-Call praxe
Různé typy nehod (testování, změny konfigurace, selhání hardwaru)
Protokoly řízení incidentů
Téma #10: Diagnostika a řešení problémů
Protokolování
Ladění
Procvičte si analýzu a ladění naší aplikace
Téma #11: Testování spolehlivosti systému
Zátěžové testování
Testování konfigurace
Testování výkonu
Kanárské propuštění
Téma č. 12: Samostatná práce a recenze
Doporučení a požadavky na účastníky
SRE je týmová práce. Důrazně doporučujeme absolvovat kurz jako tým. Proto nabízíme velké slevy pro hotové týmy.
Cena kurzu je 60 000 ₽ na osobu.
Pokud společnost pošle skupinu 5+ lidí - 40 000 ₽.
Kurz je postaven na Kubernetes. Chcete-li projít, musíte znát Kubernetes na základní úrovni. Pokud s ním nepracujete, můžete projít Slurm Basic (онлайн nebo intenzivní 18.-20).
Navíc je potřeba ovládat Linux a znát Gitlab a Prometheus.
Pokud máte komplexní představu o účasti, např. pro CEO, CTO a tým vývojářů, aby na kurz přišli a aby absolvovali stáž s přihlédnutím k manažerské vertikále, napište mi do osobní zprávy.