Slurm SRE. Kompletný experiment s odborníkmi z Booking.com a Google.com

Náš tím miluje experimenty. Každý Slurm nie je statickým opakovaním predchádzajúcich, ale úvahou o skúsenostiach a prechodom od dobrého k lepšiemu. Ale s Slurm SRE rozhodli sme sa použiť úplne nový formát – poskytnúť účastníkom podmienky čo najbližšie k „boju“.

Ak stručne načrtneme, čo sme robili počas intenzívneho kurzu: „Stavíme, lámeme, opravujeme,
študujeme." SRE má malú hodnotu len v teórii - iba prax, skutočné riešenia, skutočné problémy.

Účastníci boli rozdelení do tímov, aby energický súťaživý duch nedovolil nikomu zaspať alebo spustiť „Angry Birds“ na iPhone podľa vzoru Dmitrija Anatoljeviča.

Problémy, závady, chyby a úlohy poskytli účastníkom štyria mentori. Ivan Kruglov, hlavný vývojár v Booking.com (Holandsko). Ben Tyler, hlavný vývojár na Booking.com (USA). Eduard Medvedev, CTO v Tungsten Labs (Nemecko). Evgeniy Varavva, generálny vývojár spoločnosti Google (San Francisco).

Okrem toho sú účastníci rozdelení do tímov a súťažia medzi sebou. zaujímavé?

Slurm SRE. Kompletný experiment s odborníkmi z Booking.com a Google.com
Ivan, Ben, Eduard a Evgeniy sa pred začiatkom súťaže pozerajú na úbohých účastníkov SRE s láskavými leninskými očami.

Takže úloha:

Sme svoji, vybudujeme nový svet...

Existuje webová stránka agregátora vstupeniek do kina. Incidenty vymýšľajú mentori podľa vopred pripraveného scenára (aj keď nikto nevylučuje obzvlášť sofistikovanú a zákernú improvizáciu), výkon stránky popisujú rôzne metriky. Problémy môžu byť veľmi odlišné: vstupenky do divadla Moulin Rouge sa nenačítajú do databázy; plagáty filmov a predstavení sa načítajú do databázy za viac ako 10 sekúnd; zamrzí popis jednotlivého filmu; 0,1 % objednávok je už rezervovaných; Z času na čas systém spracovania platieb na minútu alebo dve zlyhá. A veľa, veľa, veľa nepríjemných vecí, ktoré môžu postihnúť účastníka SLURM v jeho skutočnej práci.

Slurm SRE. Kompletný experiment s odborníkmi z Booking.com a Google.com
Sme pripravení zvládnuť čokoľvek...a každého.

Naša dlhotrvajúca webová stránka pozostáva z niekoľkých mikroslužieb. Jeho úlohou je agregovať údaje o predstaveniach, cenách a voľných miestach zo všetkých kín, zobrazuje filmové oznámenia, umožňuje vybrať kino, predstavenie, sálu a miesto, rezervovať a zaplatiť vstupenky. Vo všeobecnosti všetko, o čom môže divák len snívať. Používateľ však ani netuší, aký obrovský boj o stabilitu a dostupnosť stránky sa odohráva vo vnútri.

Pre intenzívnu stránku sme vygenerovali indikátory SLO, SLI, SLA, vyvinuli architektúru a infraštruktúru, nasadili stránku, nastavili monitoring a upozorňovanie. A ideme preč.

SLO, SLI, SLA

SLI - indikátory úrovne služieb. SLO sú ciele na úrovni služieb. SLA - zmluvy o úrovni služieb.

SLA je termín metodiky ITIL, ktorý označuje formálnu dohodu medzi zákazníkom služby a jej dodávateľom, ktorá obsahuje popis služby, práva a povinnosti zmluvných strán a hlavne dohodnutú úroveň kvality pre poskytovanie tejto služby. služby.

SLO je cieľ úrovne služby: cieľová hodnota alebo rozsah hodnôt pre úroveň služby, ktorú meria SLI. Normálna hodnota pre SLO je „SLI ≤ Target“ alebo „Lower Limit ≤ SLI ≤ Horná hranica“.

SLI je indikátor úrovne služieb – starostlivo definované kvantitatívne meranie jedného aspektu úrovne poskytovaných služieb. Pre väčšinu služieb sa kľúč SLI považuje za latenciu požiadavky – ako dlho trvá vrátenie odpovede na požiadavku. Ďalšie bežné SLI zahŕňajú chybovosť, často vyjadrenú ako zlomok všetkých prijatých požiadaviek, a priepustnosť systému, ktorá sa zvyčajne meria v požiadavkách za sekundu.

Najprv rozbijeme lietadlá a potom dievčatá a potom dievčatá...

Interné a externé faktory začali „kaziť“ SLO už od prvých minút. Všetko padlo na hlavu administrátorov – chyby vývojárov, zlyhania infraštruktúry, prílev návštevníkov a DDoS útoky. Všetko, čo zhoršuje SLO.

Slurm SRE. Kompletný experiment s odborníkmi z Booking.com a Google.com
"- Vážení účastníci, ponáhľam sa vás potešiť, prvé, čo sa vám nepodarí, je... všetko!"

Počas cesty rečníci diskutovali o stabilite, chybovom rozpočte, testovacej praxi, riadení prerušení a prevádzkovej záťaži.

Nie sme stokeri, nie sme tesári...

Potom účastníci začali veci opravovať - ​​hlavnou vecou je pochopiť, čo chytiť ako prvé.

Slurm SRE. Kompletný experiment s odborníkmi z Booking.com a Google.com
"Pane, nikdy som nevidel, aby sa to takto zlomilo, v takejto podobe a v takej polohe!"

Takže došlo k nehode. Služba spracovania platieb nefunguje. Ako postupovať, aby sa funkčnosť obnovila v čo najkratšom čase?

Slurm SRE. Kompletný experiment s odborníkmi z Booking.com a Google.com
Odborníci, láskyplne hľadiac na účastníkov, pripravujú ďalší trik.

Každý tím organizuje prácu skupiny na odstránení havárie – zapája kolegov, upozorňuje zainteresované strany (stakeholders). Zároveň sa stanovujú priority. Týmto spôsobom sa účastníci trénovali na prácu pod tlakom v extrémne obmedzených časových podmienkach.

Slurm SRE. Kompletný experiment s odborníkmi z Booking.com a Google.com
"Aká hrôza sa objavila?"

Vydýchnite... a dokončite cvičenie

Spolu s prednášajúcimi, po vyriešení každého problému a dočasnej stabilizácii lokality, tím študoval incidenty z pohľadu SRE. Podrobne sme rozobrali problémy – príčiny vzniku, postup odstraňovania. Potom sme sa tím po tíme aj kolektívne rozhodovali, ako im ďalej predchádzať: ako zlepšiť monitoring, ako múdro zmeniť architektúru, ako upraviť prístup k vývoju a prevádzke, ako korigovať predpisy. Rečníci predviedli nácvik vykonávania pitvy.

Slurm SRE. Kompletný experiment s odborníkmi z Booking.com a Google.com
„Kto iný chce muky! - Ja!"

Úspechy tímov boli striktne a prehľadne zaznamenávané na elektronickej tabuli.

Slurm SRE. Kompletný experiment s odborníkmi z Booking.com a Google.com

Za prvé miesta - bonus od zainteresovaných strán.

Slurm SRE. Kompletný experiment s odborníkmi z Booking.com a Google.com

Zdroj: hab.com

Pridať komentár