Slurm SRE. Nepřetržitý experiment s odborníky z Booking.com a Google.com

Náš tým miluje experimenty. Každý Slurm není statickým opakováním předchozích, ale zamyšlením nad prožitkem a přechodem od dobrého k lepšímu. Ale s Slurm SRE rozhodli jsme se použít zcela nový formát – dát účastníkům podmínky co nejblíže „boji“.

Když stručně nastíníme, co jsme během intenzivního kurzu dělali: „Stavíme, bouráme, opravujeme,
studujeme." SRE má malou cenu v pouhé teorii – pouze praxe, skutečná řešení, skutečné problémy.

Účastníci byli rozděleni do týmů, aby energický soutěživý duch nedovolil nikomu usnout nebo spustit „Angry Birds“ na iPhone po vzoru Dmitrije Anatoljeviče.

Problémy, závady, chyby a úkoly poskytovali účastníkům čtyři mentoři. Ivan Kruglov, hlavní vývojář společnosti Booking.com (Nizozemsko). Ben Tyler, hlavní vývojář společnosti Booking.com (USA). Eduard Medveděv, technický ředitel Tungsten Labs (Německo). Evgeniy Varavva, generální vývojář společnosti Google (San Francisco).

Navíc jsou účastníci rozděleni do týmů a soutěží mezi sebou. Zajímavý?

Slurm SRE. Nepřetržitý experiment s odborníky z Booking.com a Google.com
Ivan, Ben, Eduard a Jevgenij se před začátkem soutěže dívají na nebohé účastníky Slurm SRE s laskavými leninskými mžoury.

Takže úkol:

Jsme svoji, vybudujeme nový svět...

Existuje webová stránka agregátoru vstupenek do kina. Incidenty vymýšlejí mentoři v předem zpracovaném scénáři (ačkoliv nikdo nevylučuje zvlášť sofistikovanou a záludnou improvizaci), výkon webu popisují různé metriky. Problémy mohou být velmi odlišné: vstupenky do divadla Moulin Rouge nejsou načteny do databáze; plakáty filmů a představení jsou načteny do databáze za více než 10 sekund; popis jednotlivého filmu zamrzí; 0,1 % objednávek je již rezervováno; Čas od času se systém zpracování plateb na minutu nebo dvě zhroutí. A mnoho, mnoho, mnoho nepříjemných věcí, které mohou potkat účastníka slurmu SRE v jeho skutečné práci.

Slurm SRE. Nepřetržitý experiment s odborníky z Booking.com a Google.com
Jsme připraveni zvládnout cokoli...a každého.

Náš dlouholetý web se skládá z několika mikroslužeb. Jeho úkolem je agregovat data o představeních, cenách a volných místech ze všech kin, zobrazuje filmová oznámení, umožňuje vybrat kino, představení, sál a místo, rezervovat a zaplatit vstupenky. Obecně vše, o čem si divák může nechat jen zdát. Ale uživatel ani netuší, jaký titánský boj o stabilitu a dostupnost webu se odehrává uvnitř.

Pro intenzivní web jsme vygenerovali indikátory SLO, SLI, SLA, vyvinuli architekturu a infrastrukturu, nasadili web, nastavili monitorování a upozornění. A jdeme pryč.

SLO, SLI, SLA

SLI - indikátory úrovně služeb. SLO jsou cíle na úrovni služeb. SLA - smlouvy o úrovni služeb.

SLA je termín metodiky ITIL, který označuje formální dohodu mezi zákazníkem služby a jejím dodavatelem, obsahující popis služby, práva a povinnosti smluvních stran a především dohodnutou úroveň kvality pro poskytování této služby. servis.

SLO je cíl úrovně služeb: cílová hodnota nebo rozsah hodnot pro úroveň služeb, která je měřena pomocí SLI. Normální hodnota pro SLO je „SLI ≤ Target“ nebo „Lower Limit ≤ SLI ≤ Upper Limit“.

SLI je indikátor úrovně služeb – pečlivě definované kvantitativní měřítko jednoho aspektu úrovně poskytovaných služeb. U většiny služeb je klíč SLI považován za latenci požadavku – jak dlouho trvá vrácení odpovědi na požadavek. Mezi další běžné SLI patří chybovost, často vyjádřená jako zlomek všech přijatých požadavků, a propustnost systému, obvykle měřená v požadavcích za sekundu.

Nejdřív ze všeho rozbijeme letadla a pak dívky a pak dívky...

Od prvních minut začaly SLO „kazit“ vnitřní i vnější faktory. Vše padlo na hlavu administrátorů – chyby vývojářů, selhání infrastruktury, příliv návštěvníků a DDoS útoky. Vše, co zhoršuje SLO.

Slurm SRE. Nepřetržitý experiment s odborníky z Booking.com a Google.com
"- Vážení účastníci, spěchám vás potěšit, první věc, kterou neuspějete, je... všechno!"

Během cesty řečníci diskutovali o stabilitě, chybovém rozpočtu, testovací praxi, řízení přerušení a provozní zátěži.

Nejsme topiče, nejsme tesaři...

Poté účastníci začali věci opravovat - hlavní věcí je pochopit, co chytit jako první.

Slurm SRE. Nepřetržitý experiment s odborníky z Booking.com a Google.com
"Pane, nikdy jsem neviděl, že by se to takhle zlomilo, v této podobě a v takové poloze!"

Došlo tedy k nehodě. Služba zpracování plateb nefunguje. Jak jednat pro obnovení funkčnosti v co nejkratším čase?

Slurm SRE. Nepřetržitý experiment s odborníky z Booking.com a Google.com
Odborníci, láskyplně hledící na účastníky, chystají další trik.

Každý tým organizuje práci skupiny na odstranění havárie – zapojuje kolegy, upozorňuje zainteresované strany (stakeholdery). Zároveň jsou stanoveny priority. Účastníci se tak naučili pracovat pod tlakem za extrémně omezených časových podmínek.

Slurm SRE. Nepřetržitý experiment s odborníky z Booking.com a Google.com
"Jaká hrůza se objevila?"

Vydechněte... a dokončete cvičení

Společně s řečníky po vyřešení každého problému a dočasné stabilizaci lokality tým studoval incidenty z pohledu SRE. Podrobně jsme analyzovali problémy - příčiny vzniku, postup odstraňování. Poté jsme tým po týmu i kolektivně rozhodovali, jak jim dále předcházet: jak zlepšit monitoring, jak moudře změnit architekturu, jak upravit přístup k vývoji a provozu, jak korigovat předpisy. Řečníci předvedli nácvik provádění pitvy.

Slurm SRE. Nepřetržitý experiment s odborníky z Booking.com a Google.com
„Kdo jiný chce muka! -Já!"

Úspěchy týmů byly přísně a přehledně zaznamenávány na elektronické výsledkové tabuli.

Slurm SRE. Nepřetržitý experiment s odborníky z Booking.com a Google.com

Za první místa - bonus od zúčastněných stran.

Slurm SRE. Nepřetržitý experiment s odborníky z Booking.com a Google.com

Zdroj: www.habr.com

Přidat komentář