Slurm SRE. Kompletan eksperiment sa stručnjacima s Booking.com i Google.com

Naš tim voli eksperimente. Svaki Slurm nije statično ponavljanje prethodnih, već refleksija na iskustvo i prijelaz s dobrog na bolje. Ali sa Slurm SRE odlučili smo primijeniti potpuno novi format - pružiti sudionicima uvjete što bliže “borbenim”.

Ako ukratko opišemo što smo radili tijekom intenzivnog tečaja: „Gradimo, lomimo, popravljamo,
mi učimo." SRE malo vrijedi u pukoj teoriji - samo praksa, stvarna rješenja, stvarni problemi.

Sudionici su bili podijeljeni u timove kako snažan natjecateljski duh ne bi dopustio da netko zaspi ili pokrene "Angry Birds" na iPhoneu, po uzoru na Dmitrija Anatoljeviča.

Probleme, kvarove, greške i zadatke polaznicima su davala četiri mentora. Ivan Kruglov, glavni programer na Booking.com (Nizozemska). Ben Tyler, glavni programer na Booking.com (SAD). Eduard Medvedev, tehnički direktor tvrtke Tungsten Labs (Njemačka). Evgeniy Varavva, generalni programer u Googleu (San Francisco).

Štoviše, sudionici su podijeljeni u timove i natječu se međusobno. Zanimljiv?

Slurm SRE. Kompletan eksperiment sa stručnjacima s Booking.com i Google.com
Ivan, Ben, Eduard i Evgeniy gledaju jadne sudionike Slurm SRE s ljubaznim lenjinističkim pogledom prije početka natjecanja.

Dakle zadatak:

Mi smo naši, mi ćemo izgraditi novi svijet...

Postoji web stranica za skupljanje ulaznica za kino. Incidente izmišljaju mentori prema unaprijed razrađenom scenariju (iako nitko ne isključuje posebno sofisticiranu i podmuklu improvizaciju), izvedba stranice opisuje se različitim metrikama. Problemi mogu biti vrlo različiti: ulaznice za kazalište Moulin Rouge nisu učitane u bazu podataka; plakati filmova i predstava učitavaju se u bazu podataka za više od 10 sekundi; zamrzava se opis pojedinog filma; 0,1% narudžbi je već rezervirano; S vremena na vrijeme sustav za obradu plaćanja padne na minutu ili dvije. I mnogo, mnogo, mnogo neugodnih stvari koje mogu zadesiti sudionika Slurm SRE na njegovom pravom poslu.

Slurm SRE. Kompletan eksperiment sa stručnjacima s Booking.com i Google.com
Spremni smo podnijeti sve...i svakoga.

Naša dugotrajna web stranica sastoji se od nekoliko mikroservisa. Zadaća mu je prikupljanje podataka o predstavama, cijenama i slobodnim sjedalima iz svih kina, prikazuje najave filmova, omogućuje odabir kina, predstave, dvorane i mjesta, rezervaciju i plaćanje ulaznica. Općenito, sve ono o čemu gledatelj može samo sanjati. Ali korisnik niti ne sluti kakva se titanska borba za stabilnost i dostupnost stranice odvija unutra.

Za intenzivno mjesto generirali smo SLO, SLI, SLA indikatore, razvili arhitekturu i infrastrukturu, postavili mjesto, postavili nadzor i uzbunjivanje. I idemo.

SLO, SLI, SLA

SLI - indikatori razine usluge. SLO su ciljevi razine usluge. SLA - ugovori o razini usluge.

SLA je termin ITIL metodologije koji označava formalni ugovor između korisnika usluge i njezinog dobavljača, koji sadrži opis usluge, prava i obveze strana i, što je najvažnije, dogovorenu razinu kvalitete za pružanje ove usluge. servis.

SLO je cilj razine usluge: ciljana vrijednost ili raspon vrijednosti za razinu usluge koju mjeri SLI. Normalna vrijednost za SLO je "SLI ≤ Cilj" ili "Donja granica ≤ SLI ≤ Gornja granica".

SLI je pokazatelj razine usluge—pažljivo definirana kvantitativna mjera jednog aspekta razine pružene usluge. Za većinu usluga smatra se da je ključni SLI latencija zahtjeva - koliko dugo je potrebno da se odgovori na zahtjev. Drugi uobičajeni SLI-ovi uključuju stopu pogreške, često izraženu kao dio svih primljenih zahtjeva, i propusnost sustava, obično mjeren u zahtjevima po sekundi.

Prvo ćemo razbiti avione, pa cure, pa cure...

Unutarnji i vanjski čimbenici počeli su “kvariti” SLO od prvih minuta. Administratorima se sve srušilo na glavu - pogreške programera, kvarovi na infrastrukturi, navala posjetitelja i DDoS napadi. Sve što pogoršava SLO.

Slurm SRE. Kompletan eksperiment sa stručnjacima s Booking.com i Google.com
“- Dragi sudionici, žurim vas zadovoljiti, prva stvar koju ne uspijete je... sve!”

Usput su govornici raspravljali o stabilnosti, proračunu pogrešaka, praksi testiranja, upravljanju prekidima i radnom opterećenju.

Nismo ložači, nismo stolari...

Zatim su sudionici počeli popravljati stvari - glavno je razumjeti što prvo zgrabiti.

Slurm SRE. Kompletan eksperiment sa stručnjacima s Booking.com i Google.com
“- Gospode, nikad ga nisam vidio ovako slomljenog, u ovakvom obliku i takvom položaju!”

Dakle, dogodila se nesreća. Usluga obrade plaćanja ne radi. Kako djelovati da vratite funkcionalnost u najkraćem mogućem roku?

Slurm SRE. Kompletan eksperiment sa stručnjacima s Booking.com i Google.com
Stručnjaci, nježno gledajući sudionike, spremaju još jedan trik.

Svaki tim organizira rad grupe za otklanjanje nesreće – uključuje kolege, obavještava zainteresirane strane (dionike). Istovremeno se postavljaju prioriteti. Na ovaj način polaznici su se osposobili za rad pod pritiskom u iznimno ograničenim vremenskim uvjetima.

Slurm SRE. Kompletan eksperiment sa stručnjacima s Booking.com i Google.com
“Kakav je horor izašao?!”

Izdahnite... i završite vježbu

Zajedno s govornicima, nakon što je svaki problem riješen i mjesto privremeno stabilizirano, tim je proučavao incidente sa stajališta SRE-a. Detaljno smo analizirali probleme - uzroke nastanka, tijek otklanjanja. Nakon toga smo tim po tim i kolektivno donosili odluke kako ih dalje spriječiti: kako poboljšati monitoring, kako pametno promijeniti arhitekturu, kako prilagoditi pristup razvoju i radu, kako korigirati regulativu. Govornici su demonstrirali praksu provođenja obdukcije.

Slurm SRE. Kompletan eksperiment sa stručnjacima s Booking.com i Google.com
“Tko još želi muke! - Ja!"

Uspjesi ekipa su se striktno i pregledno bilježili na elektroničkom semaforu.

Slurm SRE. Kompletan eksperiment sa stručnjacima s Booking.com i Google.com

Za prva mjesta - bonus od dionika.

Slurm SRE. Kompletan eksperiment sa stručnjacima s Booking.com i Google.com

Izvor: www.habr.com

Dodajte komentar