Slurm SRE. Popoln eksperiment s strokovnjaki iz Booking.com in Google.com

Naša ekipa obožuje eksperimente. Vsak Slurm ni statična ponovitev prejšnjih, temveč refleksija izkušnje in prehod iz dobrega v boljše. Ampak z Slurm SRE odločili smo se za uporabo popolnoma novega formata - da udeležencem zagotovimo pogoje, ki so čim bližje "boju".

Če na kratko opišemo, kaj smo počeli na intenzivnem tečaju: »Gradimo, lomimo, popravljamo,
študiramo." SRE je zgolj v teoriji malo vreden - samo praksa, prave rešitve, pravi problemi.

Udeleženci so bili razdeljeni v ekipe, tako da živahen tekmovalni duh nikomur ne bi dovolil, da bi zaspal ali zagnal "Angry Birds" na iPhoneu, po zgledu Dmitrija Anatolijeviča.

Težave, napake, napake in naloge so udeležencem posredovali štirje mentorji. Ivan Kruglov, glavni razvijalec pri Booking.com (Nizozemska). Ben Tyler, glavni razvijalec pri Booking.com (ZDA). Eduard Medvedev, tehnični direktor pri Tungsten Labs (Nemčija). Evgeniy Varavva, generalni razvijalec pri Googlu (San Francisco).

Poleg tega so udeleženci razdeljeni v ekipe in tekmujejo med seboj. zanimivo?

Slurm SRE. Popoln eksperiment s strokovnjaki iz Booking.com in Google.com
Ivan, Ben, Eduard in Evgeniy pred začetkom tekmovanja gledajo uboge udeležence Slurm SRE s prijaznimi leninističnimi mežiki.

Torej naloga:

Mi smo naši, mi bomo zgradili nov svet ...

Obstaja spletno mesto za zbiranje vstopnic za kino. Incidente si izmislijo mentorji po vnaprej izdelanem scenariju (čeprav nihče ne izključuje posebej prefinjene in zahrbtne improvizacije), delovanje strani opisujejo različne metrike. Težave so lahko zelo različne: vstopnice za gledališče Moulin Rouge niso naložene v podatkovno bazo; plakati filmov in predstav se v bazo naložijo v več kot 10 sekundah; opis posameznega filma zamrzne; 0,1 % naročil je že rezerviranih; Občasno se sistem za obdelavo plačil zruši za minuto ali dve. In veliko, veliko, veliko neprijetnih stvari, ki lahko doletijo udeleženca Slurm SRE v njegovi resnični službi.

Slurm SRE. Popoln eksperiment s strokovnjaki iz Booking.com in Google.com
Pripravljeni smo sprejeti vse ... in vsakogar.

Naše dolgoletno spletno mesto je sestavljeno iz več mikrostoritev. Njegova naloga je združevanje podatkov o predstavah, cenah in prostih sedežih iz vseh kinematografov, prikazuje napovedi filmov, omogoča izbiro kina, predstave, dvorane in prostora, rezervacijo in plačilo vstopnic. Na splošno vse, o čemer lahko gledalec samo sanja. Toda uporabnik sploh ne sumi, kakšen titanski boj za stabilnost in dostopnost strani se odvija v notranjosti.

Za intenzivno lokacijo smo generirali indikatorje SLO, SLI, SLA, razvili arhitekturo in infrastrukturo, postavili stran, postavili monitoring in alarmiranje. In gremo.

SLO, SLI, SLA

SLI - indikatorji ravni storitev. SLO so cilji na ravni storitev. SLA - sporazumi o ravni storitev.

SLA je izraz metodologije ITIL, ki označuje formalni dogovor med naročnikom storitve in njenim dobaviteljem, ki vsebuje opis storitve, pravice in obveznosti strank in, kar je najpomembneje, dogovorjeno raven kakovosti za zagotavljanje te storitve. storitev.

SLO je cilj ravni storitve: ciljna vrednost ali obseg vrednosti za raven storitve, ki se meri s SLI. Običajna vrednost za SLO je »SLI ≤ Target« ali »Lower Limit ≤ SLI ≤ Upper Limit«.

SLI je kazalnik ravni storitve – skrbno opredeljeno kvantitativno merilo enega vidika ravni ponujene storitve. Za večino storitev velja, da je ključni SLI zakasnitev zahteve – koliko časa traja vrnitev odgovora na zahtevo. Drugi pogosti SLI vključujejo stopnjo napak, ki je pogosto izražena kot del vseh prejetih zahtev, in sistemsko prepustnost, običajno merjeno v zahtevah na sekundo.

Najprej bomo razbili letala, nato dekleta, nato pa dekleta ...

Notranji in zunanji dejavniki so začeli “razvajati” SLO že od prvih minut. Administratorjem je vse padlo na glavo - napake razvijalcev, okvare infrastrukture, naval obiskovalcev in napadi DDoS. Vse kar slabša SLO.

Slurm SRE. Popoln eksperiment s strokovnjaki iz Booking.com in Google.com
"- Dragi udeleženci, hitim, da vas prosim, prva stvar, ki vam ne uspe, je ... vse!"

Med potjo so govorniki razpravljali o stabilnosti, proračunu napak, praksi testiranja, obvladovanju prekinitev in operativni obremenitvi.

Nismo kurjači, ne mizarji ...

Nato so udeleženci začeli popravljati stvari - glavna stvar je razumeti, kaj najprej zgrabiti.

Slurm SRE. Popoln eksperiment s strokovnjaki iz Booking.com in Google.com
"- Gospod, še nikoli ga nisem videl tako zlomiti, v tej obliki in v takem položaju!"

Tako se je zgodila nesreča. Storitev za obdelavo plačil ne deluje. Kako ukrepati, da v najkrajšem možnem času obnovite funkcionalnost?

Slurm SRE. Popoln eksperiment s strokovnjaki iz Booking.com in Google.com
Strokovnjaki, ki ljubeče gledajo udeležence, pripravljajo še en trik.

Vsaka ekipa organizira delo skupine za odpravo nesreče – vključuje sodelavce, obvešča zainteresirane strani (deležnike). Hkrati se postavljajo prioritete. Na ta način so se udeleženci urili za delo pod pritiskom v izjemno omejenih časovnih pogojih.

Slurm SRE. Popoln eksperiment s strokovnjaki iz Booking.com in Google.com
"Kakšna grozljivka je prišla ven?!"

Izdihnite ... in zaključite vajo

Skupaj z govorci je ekipa po rešitvi vsake težave in začasni stabilizaciji lokacije preučila incidente z vidika SRE. Težave smo podrobno analizirali – vzroke za nastanek, potek odprave. Nato smo se timsko in kolektivno odločali, kako jih še preprečiti: kako izboljšati monitoring, kako modro spremeniti arhitekturo, kako prilagoditi pristop k razvoju in delovanju, kako popraviti regulativo. Govorci so prikazali prakso izvajanja obdukcije.

Slurm SRE. Popoln eksperiment s strokovnjaki iz Booking.com in Google.com
»Kdo si še želi muk! - JAZ!"

Uspehi ekip so bili striktno in pregledno zabeleženi na elektronskem semaforju.

Slurm SRE. Popoln eksperiment s strokovnjaki iz Booking.com in Google.com

Za prva mesta - bonus od zainteresiranih strani.

Slurm SRE. Popoln eksperiment s strokovnjaki iz Booking.com in Google.com

Vir: www.habr.com

Dodaj komentar