Slurm SRE. Kontinuirano eksperimentisanje sa stručnjacima sa Booking.com i Google.com

Naš tim voli eksperimente. Svaki Slurm nije statično ponavljanje prethodnih, već refleksija na iskustvo i prijelaz od dobrog ka boljem. Ali sa Slurm SRE odlučili smo da primenimo potpuno novi format – da učesnicima pružimo uslove što bliže „borbenim“.

Ako ukratko opišemo šta smo radili tokom intenzivnog kursa: „Gradimo, lomimo, popravljamo,
mi studiramo." SRE malo vrijedi u pukoj teoriji - samo praksa, prava rješenja, stvarni problemi.

Učesnici su bili podijeljeni u timove kako snažan takmičarski duh nikome ne bi dozvolio da zaspi ili pokrene “Angry Birds” na iPhoneu, po uzoru na Dmitrija Anatoljeviča.

Probleme, kvarove, greške i zadatke učesnicima su pružila četiri mentora. Ivan Kruglov, glavni programer na Booking.com-u (Holandija). Ben Tyler, glavni programer na Booking.com-u (SAD). Eduard Medvedev, CTO u Tungsten Labs (Njemačka). Evgeniy Varavva, generalni programer u Google-u (San Francisco).

Štaviše, učesnici su podijeljeni u timove i takmiče se jedni s drugima. Zanimljivo?

Slurm SRE. Kontinuirano eksperimentisanje sa stručnjacima sa Booking.com i Google.com
Ivan, Ben, Eduard i Evgenij gledaju jadne učesnike Slurm SRE-a sa ljubaznim lenjinističkim žmirenjem pre početka takmičenja.

Dakle zadatak:

Mi smo naši, izgradićemo novi svet...

Postoji web stranica za prikupljanje karata za kino. Incidente izmišljaju mentori po unapred pripremljenom scenariju (iako niko ne isključuje posebno sofisticiranu i podmuklu improvizaciju), performanse sajta se opisuju različitim metrikama. Problemi mogu biti veoma različiti: ulaznice za pozorište Moulin Rouge se ne učitavaju u bazu podataka; plakati filmova i predstava se učitavaju u bazu podataka za više od 10 sekundi; opis pojedinačnog filma se zamrzava; 0,1% narudžbi je već rezervisano; S vremena na vrijeme sistem za obradu plaćanja se sruši na minut ili dva. I mnogo, mnogo, mnogo neprijatnih stvari koje mogu zadesiti učesnika Slurm SRE na njegovom pravom poslu.

Slurm SRE. Kontinuirano eksperimentisanje sa stručnjacima sa Booking.com i Google.com
Spremni smo da se nosimo sa svime...i svima.

Naša dugogodišnja web stranica sastoji se od nekoliko mikroservisa. Njegov zadatak je da agregira podatke o predstavama, cijenama i raspoloživim mjestima iz svih kina, prikazuje filmske najave, omogućava odabir bioskopa, predstave, dvorane i mjesta, rezervaciju i plaćanje ulaznica. Općenito, sve o čemu gledatelj može samo sanjati. Ali korisnik ni ne sluti kakva se titanska borba za stabilnost i dostupnost stranice odvija unutra.

Za intenzivnu lokaciju generirali smo SLO, SLI, SLA indikatore, razvili arhitekturu i infrastrukturu, postavili stranicu, postavili nadzor i upozorenje. I odlazimo.

SLO, SLI, SLA

SLI - indikatori nivoa usluge. SLO su ciljevi nivoa usluge. SLA - ugovori o nivou usluge.

SLA je termin ITIL metodologije koji označava formalni sporazum između korisnika usluge i njenog dobavljača, koji sadrži opis usluge, prava i obaveze strana i, što je najvažnije, dogovoreni nivo kvalitete za pružanje ove usluge. usluga.

SLO je cilj razine usluge: ciljna vrijednost ili raspon vrijednosti za razinu usluge koju mjeri SLI. Normalna vrijednost za SLO je “SLI ≤ Target” ili “Donja granica ≤ SLI ≤ Gornja granica”.

SLI je indikator nivoa usluge—pažljivo definisana kvantitativna mjera jednog aspekta nivoa pružene usluge. Za većinu usluga, ključni SLI se smatra kašnjenjem zahtjeva - koliko dugo je potrebno da se vrati odgovor na zahtjev. Drugi uobičajeni SLI uključuju stopu greške, često izraženu kao dio svih primljenih zahtjeva, i sistemsku propusnost, obično mjerenu u zahtjevima u sekundi.

Prvo ćemo razbiti avione, pa devojke, pa devojke...

Unutrašnji i eksterni faktori počeli su da "kvare" SLO od prvih minuta. Sve je palo na glavu administratorima - greške programera, kvarovi na infrastrukturi, priliv posetilaca i DDoS napadi. Sve što pogoršava SLO.

Slurm SRE. Kontinuirano eksperimentisanje sa stručnjacima sa Booking.com i Google.com
“- Dragi učesnici, žurim da vas zadovoljim, prvo što ne uspete je... sve!”

Usput, govornici su razgovarali o stabilnosti, budžetu grešaka, praksi testiranja, upravljanju prekidima i operativnom opterećenju.

Nismo ložači, nismo stolari...

Tada su učesnici počeli da popravljaju stvari - glavna stvar je razumjeti šta prvo zgrabiti.

Slurm SRE. Kontinuirano eksperimentisanje sa stručnjacima sa Booking.com i Google.com
“- Gospode, nikad nisam video da se ovako lomi, u ovakvom obliku i u takvom položaju!”

Dakle, dogodila se nesreća. Usluga obrade plaćanja ne radi. Kako postupiti da biste vratili funkcionalnost u najkraćem mogućem roku?

Slurm SRE. Kontinuirano eksperimentisanje sa stručnjacima sa Booking.com i Google.com
Stručnjaci, s ljubavlju gledajući učesnike, spremaju još jedan trik.

Svaki tim organizuje rad grupe na otklanjanju nesreće – uključuje kolege, obavještava zainteresovane strane (stejkholdere). Istovremeno se određuju prioriteti. Na ovaj način polaznici su se osposobili za rad pod pritiskom u izuzetno ograničenim vremenskim uslovima.

Slurm SRE. Kontinuirano eksperimentisanje sa stručnjacima sa Booking.com i Google.com
“Kakav je to užas izašao?!”

Izdahnite... i završite vježbu

Zajedno sa govornicima, nakon što je svaki problem riješen i lokacija privremeno stabilizirana, tim je proučavao incidente sa SRE tačke gledišta. Detaljno smo analizirali probleme – uzroke nastanka, napredak eliminacije. Nakon toga, tim po tim i kolektivno, donosili smo odluke kako ih dalje spriječiti: kako poboljšati monitoring, kako mudro promijeniti arhitekturu, kako prilagoditi pristup razvoju i radu, kako korigirati propise. Govornici su demonstrirali praksu provođenja obdukcije.

Slurm SRE. Kontinuirano eksperimentisanje sa stručnjacima sa Booking.com i Google.com
„Ko još želi muke! - Ja!"

Uspjesi timova su striktno i jasno zabilježeni na elektronskom semaforu.

Slurm SRE. Kontinuirano eksperimentisanje sa stručnjacima sa Booking.com i Google.com

Za prva mjesta - bonus od dionika.

Slurm SRE. Kontinuirano eksperimentisanje sa stručnjacima sa Booking.com i Google.com

izvor: www.habr.com

Dodajte komentar