Náš tým miluje experimenty. Každý Slurm není statickým opakováním předchozích, ale zamyšlením nad prožitkem a přechodem od dobrého k lepšímu. Ale s
Když stručně nastíníme, co jsme během intenzivního kurzu dělali: „Stavíme, bouráme, opravujeme,
studujeme." SRE má malou cenu v pouhé teorii – pouze praxe, skutečná řešení, skutečné problémy.
Účastníci byli rozděleni do týmů, aby energický soutěživý duch nedovolil nikomu usnout nebo spustit „Angry Birds“ na iPhone po vzoru Dmitrije Anatoljeviče.
Problémy, závady, chyby a úkoly poskytovali účastníkům čtyři mentoři. Ivan Kruglov, hlavní vývojář společnosti Booking.com (Nizozemsko). Ben Tyler, hlavní vývojář společnosti Booking.com (USA). Eduard Medveděv, technický ředitel Tungsten Labs (Německo). Evgeniy Varavva, generální vývojář společnosti Google (San Francisco).
Navíc jsou účastníci rozděleni do týmů a soutěží mezi sebou. Zajímavý?
Ivan, Ben, Eduard a Jevgenij se před začátkem soutěže dívají na nebohé účastníky Slurm SRE s laskavými leninskými mžoury.
Jsme svoji, vybudujeme nový svět...
Existuje webová stránka agregátoru vstupenek do kina. Incidenty vymýšlejí mentoři v předem zpracovaném scénáři (ačkoliv nikdo nevylučuje zvlášť sofistikovanou a záludnou improvizaci), výkon webu popisují různé metriky. Problémy mohou být velmi odlišné: vstupenky do divadla Moulin Rouge nejsou načteny do databáze; plakáty filmů a představení jsou načteny do databáze za více než 10 sekund; popis jednotlivého filmu zamrzí; 0,1 % objednávek je již rezervováno; Čas od času se systém zpracování plateb na minutu nebo dvě zhroutí. A mnoho, mnoho, mnoho nepříjemných věcí, které mohou potkat účastníka slurmu SRE v jeho skutečné práci.
Jsme připraveni zvládnout cokoli...a každého.
Náš dlouholetý web se skládá z několika mikroslužeb. Jeho úkolem je agregovat data o představeních, cenách a volných místech ze všech kin, zobrazuje filmová oznámení, umožňuje vybrat kino, představení, sál a místo, rezervovat a zaplatit vstupenky. Obecně vše, o čem si divák může nechat jen zdát. Ale uživatel ani netuší, jaký titánský boj o stabilitu a dostupnost webu se odehrává uvnitř.
Pro intenzivní web jsme vygenerovali indikátory SLO, SLI, SLA, vyvinuli architekturu a infrastrukturu, nasadili web, nastavili monitorování a upozornění. A jdeme pryč.
SLO, SLI, SLA
SLI - indikátory úrovně služeb. SLO jsou cíle na úrovni služeb. SLA - smlouvy o úrovni služeb.
SLA je termín metodiky ITIL, který označuje formální dohodu mezi zákazníkem služby a jejím dodavatelem, obsahující popis služby, práva a povinnosti smluvních stran a především dohodnutou úroveň kvality pro poskytování této služby. servis.
SLO je cíl úrovně služeb: cílová hodnota nebo rozsah hodnot pro úroveň služeb, která je měřena pomocí SLI. Normální hodnota pro SLO je „SLI ≤ Target“ nebo „Lower Limit ≤ SLI ≤ Upper Limit“.
SLI je indikátor úrovně služeb – pečlivě definované kvantitativní měřítko jednoho aspektu úrovně poskytovaných služeb. U většiny služeb je klíč SLI považován za latenci požadavku – jak dlouho trvá vrácení odpovědi na požadavek. Mezi další běžné SLI patří chybovost, často vyjádřená jako zlomek všech přijatých požadavků, a propustnost systému, obvykle měřená v požadavcích za sekundu.
Nejdřív ze všeho rozbijeme letadla a pak dívky a pak dívky...
Od prvních minut začaly SLO „kazit“ vnitřní i vnější faktory. Vše padlo na hlavu administrátorů – chyby vývojářů, selhání infrastruktury, příliv návštěvníků a DDoS útoky. Vše, co zhoršuje SLO.
"- Vážení účastníci, spěchám vás potěšit, první věc, kterou neuspějete, je... všechno!"
Během cesty řečníci diskutovali o stabilitě, chybovém rozpočtu, testovací praxi, řízení přerušení a provozní zátěži.
Nejsme topiče, nejsme tesaři...
Poté účastníci začali věci opravovat - hlavní věcí je pochopit, co chytit jako první.
"Pane, nikdy jsem neviděl, že by se to takhle zlomilo, v této podobě a v takové poloze!"
Došlo tedy k nehodě. Služba zpracování plateb nefunguje. Jak jednat pro obnovení funkčnosti v co nejkratším čase?
Odborníci, láskyplně hledící na účastníky, chystají další trik.
Každý tým organizuje práci skupiny na odstranění havárie – zapojuje kolegy, upozorňuje zainteresované strany (stakeholdery). Zároveň jsou stanoveny priority. Účastníci se tak naučili pracovat pod tlakem za extrémně omezených časových podmínek.
"Jaká hrůza se objevila?"
Vydechněte... a dokončete cvičení
Společně s řečníky po vyřešení každého problému a dočasné stabilizaci lokality tým studoval incidenty z pohledu SRE. Podrobně jsme analyzovali problémy - příčiny vzniku, postup odstraňování. Poté jsme tým po týmu i kolektivně rozhodovali, jak jim dále předcházet: jak zlepšit monitoring, jak moudře změnit architekturu, jak upravit přístup k vývoji a provozu, jak korigovat předpisy. Řečníci předvedli nácvik provádění pitvy.
„Kdo jiný chce muka! -Já!"
Úspěchy týmů byly přísně a přehledně zaznamenávány na elektronické výsledkové tabuli.
Za první místa - bonus od zúčastněných stran.
Zdroj: www.habr.com