Slurm SRE. Pilnīgs eksperiments ar ekspertiem no vietnes Booking.com un Google.com

MÅ«su komandai patÄ«k eksperimenti. Katrs Slurms nav statisks iepriekŔējo atkārtojums, bet gan pārdomas par pieredzi un pāreja no labā uz labāku. Bet ar Slurm SRE mēs nolēmām piemērot pilnÄ«gi jaunu formātu - dot dalÄ«bniekiem apstākļus pēc iespējas tuvāk ā€œcīņaiā€.

Ja Ä«sumā ieskicējam intensÄ«vajā kursā paveikto: ā€œBÅ«vējam, laužam, remontējam,
mēs mācāmies." SRE ir maz vērta tikai teorijā - tikai prakse, reāli risinājumi, reālas problēmas.

DalÄ«bnieki tika sadalÄ«ti komandās, lai enerÄ£isks sacensÄ«bu gars neļautu nevienam aizmigt vai palaist ā€œAngry Birdsā€ uz iPhone, sekojot Dmitrija Anatoļjeviča piemēram.

Problēmas, kļūmes, kļūdas un uzdevumus dalÄ«bniekiem nodroÅ”ināja četri mentori. Ivans Kruglovs, galvenais vietnes Booking.com izstrādātājs (NÄ«derlande). Bens Tailers, galvenais vietnes Booking.com izstrādātājs (ASV). Eduards Medvedevs, Tungsten Labs (Vācija) CTO. Jevgeņijs Varavva, Google galvenais izstrādātājs (Sanfrancisko).

Turklāt dalībnieki tiek sadalīti komandās un sacenŔas savā starpā. Interesanti?

Slurm SRE. Pilnīgs eksperiments ar ekspertiem no vietnes Booking.com un Google.com
Ivans, Bens, Eduards un Jevgeņijs pirms sacensību sākuma skatās uz nabaga Slurm SRE dalībniekiem ar laipniem ļeņiniskiem aci.

Tātad uzdevums:

Mēs esam savējie, mēs veidosim jaunu pasauli...

Ir filmu biļeÅ”u apkopotāja vietne. Incidentus izdomā mentori iepriekÅ” izstrādātā scenārijā (lai gan neviens neizslēdz Ä«paÅ”i izsmalcinātu un mānÄ«gu improvizāciju), vietnes darbÄ«bu raksturo dažādi metrika. Problēmas var bÅ«t ļoti dažādas: biļetes uz Mulenrūžas teātri netiek ielādētas datu bāzē; filmu un izrāžu plakāti datu bāzē tiek ielādēti vairāk nekā 10 sekundēs; atseviŔķas filmas apraksts sasalst; 0,1% pasÅ«tÄ«jumu jau ir rezervēti; Ik pa laikam maksājumu apstrādes sistēma uz minÅ«ti vai divām avarē. Un daudzas, daudzas, daudzas nepatÄ«kamas lietas, kas var piemeklēt Slurm SRE dalÄ«bnieku viņa Ä«stajā darbā.

Slurm SRE. Pilnīgs eksperiments ar ekspertiem no vietnes Booking.com un Google.com
Mēs esam gatavi izturēt jebko...un visus.

MÅ«su ilgi cietusÄ« vietne sastāv no vairākiem mikropakalpojumiem. Tās uzdevums ir apkopot datus par izrādēm, cenām un pieejamajām sēdvietām no visiem kinoteātriem, tas parāda filmu sludinājumus, ļauj izvēlēties kinoteātri, izrādi, zāli un vietu, rezervēt un apmaksāt biļetes. Kopumā viss, par ko skatÄ«tājs var tikai sapņot. Taču lietotājam pat nav aizdomas, kāda titāniska cīņa par vietnes stabilitāti un pieejamÄ«bu notiek iekŔā.

Intensīvajai vietnei mēs ģenerējām SLO, SLI, SLA rādītājus, izstrādājām arhitektūru un infrastruktūru, izvietojām vietni, iestatījām uzraudzību un brīdinājumus. Un mēs ejam prom.

SLO, SLI, SLA

SLI - servisa līmeņa rādītāji. SLO ir pakalpojuma līmeņa mērķi. SLA - pakalpojumu līmeņa līgumi.

SLA ir ITIL metodoloÄ£ijas termins, kas apzÄ«mē formālu vienoÅ”anos starp pakalpojuma klientu un tā piegādātāju, kas satur pakalpojuma aprakstu, puÅ”u tiesÄ«bas un pienākumus un, pats galvenais, saskaņoto kvalitātes lÄ«meni Ŕī pakalpojuma sniegÅ”anai. apkalpoÅ”ana.

SLO ir pakalpojuma lÄ«meņa mērÄ·is: pakalpojuma lÄ«meņa mērÄ·a vērtÄ«ba vai vērtÄ«bu diapazons, ko mēra VDI. Parastā SLO vērtÄ«ba ir ā€œSLI ā‰¤ Targetā€ vai ā€œLower Limit ā‰¤ SLI ā‰¤ Upper Limitā€.

VDI ir pakalpojuma lÄ«meņa rādÄ«tājs ā€” rÅ«pÄ«gi definēts sniegtā pakalpojuma lÄ«meņa viena aspekta kvantitatÄ«vais rādÄ«tājs. Lielākajai daļai pakalpojumu galvenais SLI tiek uzskatÄ«ts par pieprasÄ«juma latentumu ā€” cik ilgs laiks nepiecieÅ”ams, lai atgrieztu atbildi uz pieprasÄ«jumu. Citas izplatÄ«tas SLI ietver kļūdu lÄ«meni, kas bieži izteikts kā daļa no visiem saņemtajiem pieprasÄ«jumiem, un sistēmas caurlaidspēja, ko parasti mēra pieprasÄ«jumos sekundē.

Vispirms mēs salauzÄ«sim lidmaŔīnas, un tad meitenes, un tad meitenes...

IekŔējie un ārējie faktori sāka ā€œsabojātā€ SLO jau no pirmajām minÅ«tēm. Viss krita uz administratoru galvām ā€” izstrādātāju kļūdas, infrastruktÅ«ras kļūmes, apmeklētāju pieplÅ«dums un DDoS uzbrukumi. Viss, kas pasliktina SLO.

Slurm SRE. Pilnīgs eksperiments ar ekspertiem no vietnes Booking.com un Google.com
"- Cienījamie dalībnieki, es steidzos jūs iepriecināt, pirmais, kas jums neizdodas, ir... viss!"

Pa ceļam runātāji apsprieda stabilitāti, kļūdu budžetu, testÄ“Å”anas praksi, pārtraukumu pārvaldÄ«bu un darbÄ«bas slodzi.

Mēs neesam dedzinātāji, mēs neesam galdnieki ...

Tad dalÄ«bnieki sāka kārtot lietas ā€“ galvenais ir saprast, ko paÄ·ert vispirms.

Slurm SRE. Pilnīgs eksperiments ar ekspertiem no vietnes Booking.com un Google.com
"- Kungs, es nekad neesmu redzējis, ka tas Ŕādi saplÄ«st, Ŕādā formā un tādā stāvoklÄ«!"

Tātad notika negadījums. Maksājumu apstrādes pakalpojums nedarbojas. Kā rīkoties, lai pēc iespējas īsākā laikā atjaunotu funkcionalitāti?

Slurm SRE. Pilnīgs eksperiments ar ekspertiem no vietnes Booking.com un Google.com
Eksperti, sirsnīgi skatoties uz dalībniekiem, gatavo vēl vienu triku.

Katra brigāde organizē negadÄ«juma likvidÄ“Å”anas grupas darbu - iesaista kolēģus, informē interesentus (ieinteresētās puses). Tajā paŔā laikā tiek noteiktas prioritātes. Tādā veidā dalÄ«bnieki trenējās strādāt zem spiediena ārkārtÄ«gi ierobežotā laika apstākļos.

Slurm SRE. Pilnīgs eksperiments ar ekspertiem no vietnes Booking.com un Google.com
"Kas par Ŕausmām ir iznācis?!"

Izelpojiet... un pabeidziet vingrinājumu

Kopā ar runātājiem pēc katras problēmas atrisināŔanas un vietnes Ä«slaicÄ«gas stabilizÄ“Å”anas komanda pētÄ«ja incidentus no SRE viedokļa. Mēs detalizēti analizējām problēmas - raÅ”anās cēloņus, likvidÄ“Å”anas gaitu. Pēc tam gan pa komandām, gan kolektÄ«vi pieņēmām lēmumus, kā tos turpmāk novērst: kā uzlabot uzraudzÄ«bu, kā gudri mainÄ«t arhitektÅ«ru, kā pielāgot pieeju attÄ«stÄ«bai un darbÄ«bai, kā koriģēt normatÄ«vos aktus. Runātāji demonstrēja pēcnāves diriģēŔanas praksi.

Slurm SRE. Pilnīgs eksperiments ar ekspertiem no vietnes Booking.com un Google.com
ā€œKurÅ” gan vēl grib mokas! - Es!"

Komandu panākumi tika stingri un skaidri fiksēti elektroniskajā tablo.

Slurm SRE. Pilnīgs eksperiments ar ekspertiem no vietnes Booking.com un Google.com

Par pirmajām vietām - bonuss no ieinteresētajām pusēm.

Slurm SRE. Pilnīgs eksperiments ar ekspertiem no vietnes Booking.com un Google.com

Avots: www.habr.com

Pievieno komentāru