Slurm SRE. In folslein eksperimint mei saakkundigen fan Booking.com en Google.com

Us team hâldt fan eksperiminten. Elke Slurm is gjin statyske werhelling fan 'e foarige, mar in refleksje oer de ûnderfining en in oergong fan goed nei better. Mar mei Slurm SRE wy besletten om in folslein nij formaat ta te passen - om de dielnimmers betingsten sa ticht mooglik te jaan oan "bestriding".

As wy koart sketse wat wy dien hawwe yn 'e yntinsive kursus: "Wy bouwe, wy brekke, wy reparearje,
wy studearje." SRE is net folle wurdich yn gewoane teory - allinich praktyk, echte oplossingen, echte problemen.

De dielnimmers waarden ferdield yn teams sadat in krêftige kompetitive geast gjinien soe tastean om yn sliep te fallen of "Angry Birds" op 'e iPhone te starten, nei it foarbyld fan Dmitry Anatolyevich.

Problemen, glitches, bugs en taken waarden oan de dielnimmers fersoarge troch fjouwer mentors. Ivan Kruglov, haadûntwikkelder by Booking.com (Nederlân). Ben Tyler, haadûntwikkelder by Booking.com (FS). Eduard Medvedev, CTO by Tungsten Labs (Dútslân). Evgeniy Varavva, algemiene ûntwikkelder by Google (San Francisco).

Boppedat wurde de dielnimmers ferdield yn teams en stride se mei elkoar. Nijsgjirrich?

Slurm SRE. In folslein eksperimint mei saakkundigen fan Booking.com en Google.com
Ivan, Ben, Eduard en Evgeniy sjogge nei de earme Slurm SRE-dielnimmers mei aardige Leninistyske squints foar it begjin fan 'e konkurrinsje.

Dus de taak:

Wy binne fan ús, wy sille in nije wrâld bouwe ...

D'r is in webside foar aggregator foar filmkaarten. Ynsidinten wurde útfûn troch mentors yn in foarwurke senario (alhoewol't gjinien bysûnder ferfine en ferrifeljende ymprovisaasje útslút), wurdt de prestaasjes fan 'e side beskreaun troch ferskate metriken. De problemen kinne hiel oars wêze: kaarten foar it Moulin Rouge-teater wurde net yn de databank laden; posters fan films en optredens wurde yn 'e databank yn mear as 10 sekonden laden; de beskriuwing fan in yndividuele film befriest; 0,1% fan oarders binne al reservearre; Fan tiid ta tiid crasht it betellingsferwurkingssysteem foar in minút as twa. En in protte, in protte, in protte onaangename dingen dy't in Slurm SRE-dielnimmer kinne oerkomme op syn echte baan.

Slurm SRE. In folslein eksperimint mei saakkundigen fan Booking.com en Google.com
Wy binne ree om alles te behanneljen ... en elkenien.

Us lange-lijen webside bestiet út ferskate mikrotsjinsten. Syn taak is om gegevens te sammeljen oer shows, prizen en beskikbere sitten fan alle bioskopen; it toant filmoankundigingen, lit jo in bioskoop, show, seal en plak selektearje, kaartsjes boeke en betelje. Yn it algemien, alles dat de sjogger kin allinnich dreame fan. Mar de brûker fermoedt net iens wat in titanyske striid foar de stabiliteit en tagonklikens fan 'e side binnen giet.

Foar de yntinsive side hawwe wy SLO, SLI, SLA-yndikatoaren generearre, arsjitektuer en ynfrastruktuer ûntwikkele, de side ynset, kontrôle en warskôging ynsteld. En fuort geane wy.

SLO, SLI, SLA

SLI - tsjinst nivo yndikatoaren. SLO's binne doelen fan tsjinstnivo's. SLA - tsjinst nivo oerienkomsten.

SLA is in ITIL-metodologyske term dy't in formele oerienkomst oanjout tusken de klant fan in tsjinst en syn leveransier, mei in beskriuwing fan 'e tsjinst, de rjochten en ferplichtingen fan' e partijen en, it wichtichste, it oerienkommen nivo fan kwaliteit foar it leverjen fan dit betsjinning.

In SLO is in tsjinstnivo-doel: in doelwearde as berik fan wearden foar in tsjinstnivo dat wurdt metten troch de SLI. In normale wearde foar SLO is "SLI ≤ Target" of "Lower Limit ≤ SLI ≤ Upper Limit".

De SLI is in tsjinstnivo-yndikator - in soarchfâldich definieare kwantitative mjitting fan ien aspekt fan it nivo fan levere tsjinst. Foar de measte tsjinsten wurdt de kaai SLI beskôge as fersyklatens - hoe lang duorret it om in antwurd op in fersyk werom te jaan. Oare mienskiplike SLIs befetsje flater rate, faak útdrukt as in fraksje fan alle oanfragen ûntfongen, en systeem trochstreaming, meastal mjitten yn fersiken per sekonde.

Earst sille wy de fleantugen brekke, en dan de famkes, en dan de famkes ...

Ynterne en eksterne faktoaren begûn te "fergrieme" SLO út de earste minuten. Alles foel op 'e hollen fan' e behearders - ûntwikkeldersflaters, ynfrastruktuerfalen, in ynstream fan besikers, en DDoS-oanfallen. Alles wat slimmer SLO.

Slurm SRE. In folslein eksperimint mei saakkundigen fan Booking.com en Google.com
"- Beste dielnimmers, ik haast om jo te behagen, it earste ding dat jo mislearje is ... alles!"

Underweis besprutsen de sprekkers stabiliteit, flaterbudzjet, testpraktyk, behear fan ûnderbrekkings en operasjonele lading.

Wy binne gjin stokers, gjin timmerlju ...

Doe begon de dielnimmers dingen te reparearjen - it wichtichste is om te begripen wat earst te pakken.

Slurm SRE. In folslein eksperimint mei saakkundigen fan Booking.com en Google.com
"- Hear, ik haw it noch noait sa brekke sjoen, yn dizze foarm en yn sa'n posysje!"

Sa barde der in ûngelok. De tsjinst foar betellingsferwurking is del. Hoe te hanneljen om funksjonaliteit yn 'e koartst mooglike tiid te herstellen?

Slurm SRE. In folslein eksperimint mei saakkundigen fan Booking.com en Google.com
De saakkundigen, dy't leaflik nei de dielnimmers sjogge, meitsje in oare trúk foar.

Elk team organisearret it wurk fan 'e groep om it ûngelok te eliminearjen - belûkt kollega's, meldt belangstellenden (belanghebbenden). Tagelyk wurde prioriteiten steld. Op dizze manier trainden de dielnimmers om ûnder druk te wurkjen ûnder ekstreem beheinde tiidsomstannichheden.

Slurm SRE. In folslein eksperimint mei saakkundigen fan Booking.com en Google.com
"Wat foar horror is útkommen?!"

Uthale ... en foltôgje de oefening

Tegearre mei de sprekkers, nei't elk probleem oplost wie en de side tydlik stabilisearre wie, bestudearre it team de ynsidinten út in SRE-perspektyf. Wy analysearren de problemen yn detail - de oarsaken fan foarkommen, de fuortgong fan eliminaasje. Dêrnei hawwe wy sawol team-foar-team as kollektyf besluten nommen oer hoe't se fierder foar te kommen binne: hoe de monitoring te ferbetterjen, hoe de arsjitektuer ferstannich te feroarjen, hoe de oanpak fan ûntwikkeling en eksploitaasje oan te passen, hoe regeljouwing te ferbetterjen. De sprekkers demonstrearren de praktyk fan it fieren fan post-mortem.

Slurm SRE. In folslein eksperimint mei saakkundigen fan Booking.com en Google.com
"Wa oars wol pine! -ik!"

De suksessen fan de ploegen waarden strikt en dúdlik op it elektroanyske skoareboerd fêstlein.

Slurm SRE. In folslein eksperimint mei saakkundigen fan Booking.com en Google.com

Foar earste plakken - in bonus fan belanghawwenden.

Slurm SRE. In folslein eksperimint mei saakkundigen fan Booking.com en Google.com

Boarne: www.habr.com

Add a comment