Naš tim voli eksperimente. Svaki Slurm nije statično ponavljanje prethodnih, već refleksija na iskustvo i prijelaz od dobrog ka boljem. Ali sa
Ako ukratko opišemo šta smo radili tokom intenzivnog kursa: „Gradimo, lomimo, popravljamo,
mi studiramo." SRE malo vrijedi u pukoj teoriji - samo praksa, prava rješenja, stvarni problemi.
Učesnici su bili podijeljeni u timove kako snažan takmičarski duh nikome ne bi dozvolio da zaspi ili pokrene “Angry Birds” na iPhoneu, po uzoru na Dmitrija Anatoljeviča.
Probleme, kvarove, greške i zadatke učesnicima su pružila četiri mentora. Ivan Kruglov, glavni programer na Booking.com-u (Holandija). Ben Tyler, glavni programer na Booking.com-u (SAD). Eduard Medvedev, CTO u Tungsten Labs (Njemačka). Evgeniy Varavva, generalni programer u Google-u (San Francisco).
Štaviše, učesnici su podijeljeni u timove i takmiče se jedni s drugima. Zanimljivo?
Ivan, Ben, Eduard i Evgenij gledaju jadne učesnike Slurm SRE-a sa ljubaznim lenjinističkim žmirenjem pre početka takmičenja.
Mi smo naši, izgradićemo novi svet...
Postoji web stranica za prikupljanje karata za kino. Incidente izmišljaju mentori po unapred pripremljenom scenariju (iako niko ne isključuje posebno sofisticiranu i podmuklu improvizaciju), performanse sajta se opisuju različitim metrikama. Problemi mogu biti veoma različiti: ulaznice za pozorište Moulin Rouge se ne učitavaju u bazu podataka; plakati filmova i predstava se učitavaju u bazu podataka za više od 10 sekundi; opis pojedinačnog filma se zamrzava; 0,1% narudžbi je već rezervisano; S vremena na vrijeme sistem za obradu plaćanja se sruši na minut ili dva. I mnogo, mnogo, mnogo neprijatnih stvari koje mogu zadesiti učesnika Slurm SRE na njegovom pravom poslu.
Spremni smo da se nosimo sa svime...i svima.
Naša dugogodišnja web stranica sastoji se od nekoliko mikroservisa. Njegov zadatak je da agregira podatke o predstavama, cijenama i raspoloživim mjestima iz svih kina, prikazuje filmske najave, omogućava odabir bioskopa, predstave, dvorane i mjesta, rezervaciju i plaćanje ulaznica. Općenito, sve o čemu gledatelj može samo sanjati. Ali korisnik ni ne sluti kakva se titanska borba za stabilnost i dostupnost stranice odvija unutra.
Za intenzivnu lokaciju generirali smo SLO, SLI, SLA indikatore, razvili arhitekturu i infrastrukturu, postavili stranicu, postavili nadzor i upozorenje. I odlazimo.
SLO, SLI, SLA
SLI - indikatori nivoa usluge. SLO su ciljevi nivoa usluge. SLA - ugovori o nivou usluge.
SLA je termin ITIL metodologije koji označava formalni sporazum između korisnika usluge i njenog dobavljača, koji sadrži opis usluge, prava i obaveze strana i, što je najvažnije, dogovoreni nivo kvalitete za pružanje ove usluge. usluga.
SLO je cilj razine usluge: ciljna vrijednost ili raspon vrijednosti za razinu usluge koju mjeri SLI. Normalna vrijednost za SLO je “SLI ≤ Target” ili “Donja granica ≤ SLI ≤ Gornja granica”.
SLI je indikator nivoa usluge—pažljivo definisana kvantitativna mjera jednog aspekta nivoa pružene usluge. Za većinu usluga, ključni SLI se smatra kašnjenjem zahtjeva - koliko dugo je potrebno da se vrati odgovor na zahtjev. Drugi uobičajeni SLI uključuju stopu greške, često izraženu kao dio svih primljenih zahtjeva, i sistemsku propusnost, obično mjerenu u zahtjevima u sekundi.
Prvo ćemo razbiti avione, pa devojke, pa devojke...
Unutrašnji i eksterni faktori počeli su da "kvare" SLO od prvih minuta. Sve je palo na glavu administratorima - greške programera, kvarovi na infrastrukturi, priliv posetilaca i DDoS napadi. Sve što pogoršava SLO.
“- Dragi učesnici, žurim da vas zadovoljim, prvo što ne uspete je... sve!”
Usput, govornici su razgovarali o stabilnosti, budžetu grešaka, praksi testiranja, upravljanju prekidima i operativnom opterećenju.
Nismo ložači, nismo stolari...
Tada su učesnici počeli da popravljaju stvari - glavna stvar je razumjeti šta prvo zgrabiti.
“- Gospode, nikad nisam video da se ovako lomi, u ovakvom obliku i u takvom položaju!”
Dakle, dogodila se nesreća. Usluga obrade plaćanja ne radi. Kako postupiti da biste vratili funkcionalnost u najkraćem mogućem roku?
Stručnjaci, s ljubavlju gledajući učesnike, spremaju još jedan trik.
Svaki tim organizuje rad grupe na otklanjanju nesreće – uključuje kolege, obavještava zainteresovane strane (stejkholdere). Istovremeno se određuju prioriteti. Na ovaj način polaznici su se osposobili za rad pod pritiskom u izuzetno ograničenim vremenskim uslovima.
“Kakav je to užas izašao?!”
Izdahnite... i završite vježbu
Zajedno sa govornicima, nakon što je svaki problem riješen i lokacija privremeno stabilizirana, tim je proučavao incidente sa SRE tačke gledišta. Detaljno smo analizirali probleme – uzroke nastanka, napredak eliminacije. Nakon toga, tim po tim i kolektivno, donosili smo odluke kako ih dalje spriječiti: kako poboljšati monitoring, kako mudro promijeniti arhitekturu, kako prilagoditi pristup razvoju i radu, kako korigirati propise. Govornici su demonstrirali praksu provođenja obdukcije.
„Ko još želi muke! - Ja!"
Uspjesi timova su striktno i jasno zabilježeni na elektronskom semaforu.
Za prva mjesta - bonus od dionika.
izvor: www.habr.com