Slurm SRE. Usa ka kompleto nga eksperimento uban sa mga eksperto gikan sa Booking.com ug Google.com

Ang among team ganahan og mga eksperimento. Ang matag Slurm dili usa ka static nga pagbalik-balik sa mga nauna, apan usa ka pagpamalandong sa kasinatian ug usa ka pagbalhin gikan sa maayo ngadto sa mas maayo. Apan uban sa Slurm SRE kami nakahukom sa paggamit sa usa ka bug-os nga bag-o nga format - sa paghatag sa mga partisipante sa mga kondisyon nga duol sa mahimo sa "kombate".

Kon atong hisgotan sa makadiyot ang atong gihimo sa panahon sa intensive course: “Kami nagtukod, kami nagguba, kami nag-ayo,
nagtuon kami." Gamay ra ang bili sa SRE sa teorya lamang - praktis lang, tinuod nga solusyon, tinuod nga problema.

Ang mga partisipante gibahin sa mga team aron ang usa ka kusog nga kompetisyon nga espiritu dili magtugot sa bisan kinsa nga makatulog o maglansad sa "Angry Birds" sa iPhone, pagsunod sa panig-ingnan ni Dmitry Anatolyevich.

Ang mga problema, glitches, bug ug mga buluhaton gihatag sa mga partisipante sa upat ka mga magtutudlo. Ivan Kruglov, Principal Developer sa Booking.com (Netherlands). Ben Tyler, Principal Developer sa Booking.com (USA). Eduard Medvedev, CTO sa Tungsten Labs (Germany). Evgeniy Varavva, general developer sa Google (San Francisco).

Dugang pa, ang mga partisipante gibahin sa mga team ug nakigkompetensya sa usag usa. Makapainteres?

Slurm SRE. Usa ka kompleto nga eksperimento uban sa mga eksperto gikan sa Booking.com ug Google.com
Si Ivan, Ben, Eduard ug Evgeniy nagtan-aw sa mga kabus nga partisipante sa Slurm SRE nga adunay buotan nga Leninist nga mga squint sa wala pa magsugod ang kompetisyon.

Busa ang buluhaton:

Amo kami, magtukod kami usa ka bag-ong kalibutan ...

Adunay usa ka website sa aggregator sa tiket sa sine. Ang mga insidente giimbento sa mga mentor sa usa ka nauna nga trabaho nga senaryo (bisan kung wala’y usa nga wala iapil ang labi ka sopistikado ug malimbungon nga improvisasyon), ang pasundayag sa site gihulagway sa lainlaing mga sukatan. Ang mga problema mahimong lahi kaayo: ang mga tiket alang sa teatro sa Moulin Rouge wala gikarga sa database; Ang mga poster sa mga pelikula ug mga pasundayag gikarga sa database sa sobra sa 10 segundos; ang paghulagway sa usa ka indibidwal nga pelikula nag-freeze; Ang 0,1% sa mga order gireserba na; Matag karon ug unya ang sistema sa pagproseso sa pagbayad nag-crash sulod sa usa o duha ka minuto. Ug daghan, daghan, daghang dili maayo nga mga butang nga mahitabo sa usa ka partisipante sa Slurm SRE sa iyang tinuod nga trabaho.

Slurm SRE. Usa ka kompleto nga eksperimento uban sa mga eksperto gikan sa Booking.com ug Google.com
Andam kami sa pagdumala sa bisan unsa...ug sa tanan.

Ang among dugay nga pag-antos nga website naglangkob sa daghang mga microservice. Ang tahas niini mao ang pagtipon sa datos sa mga salida, mga presyo ug magamit nga mga lingkoranan gikan sa tanan nga mga sinehan; kini nagpakita sa mga anunsyo sa salida, nagtugot kanimo sa pagpili sa usa ka sinehan, salida, hawanan ug lugar, libro ug pagbayad sa mga tiket. Sa kinatibuk-an, ang tanan nga madamgo lamang sa tumatan-aw. Apan ang tiggamit wala gani magduda kung unsa ang usa ka titanic nga pakigbisog alang sa kalig-on ug pag-access sa site nga nagpadayon sa sulod.

Alang sa intensive site, nakamugna kami og SLO, SLI, SLA indicators, naugmad nga arkitektura ug imprastraktura, nag-deploy sa site, nag-set up sa pagmonitor ug pag-alerto. Ug lakaw mi.

SLO, SLI, SLA

SLI - mga timailhan sa lebel sa serbisyo. Ang mga SLO maoy mga tumong sa lebel sa serbisyo. SLA - mga kasabutan sa lebel sa serbisyo.

Ang SLA usa ka termino nga pamaagi sa ITIL nga nagpasabut sa usa ka pormal nga kasabutan tali sa kostumer sa usa ka serbisyo ug sa supplier niini, nga adunay usa ka paghulagway sa serbisyo, mga katungod ug obligasyon sa mga partido ug, labi ka hinungdanon, ang gikasabutan nga lebel sa kalidad alang sa paghatag niini. serbisyo.

Ang SLO usa ka katuyoan sa lebel sa serbisyo: usa ka target nga kantidad o sakup sa mga kantidad alang sa lebel sa serbisyo nga gisukod sa SLI. Ang normal nga kantidad sa SLO mao ang "SLI ≤ Target" o "Ubos nga Limitasyon ≤ SLI ≤ Upper Limit".

Ang SLI kay usa ka service level indicator—usa ka mainampingon nga gihubit nga quantitative measure sa usa ka aspeto sa lebel sa serbisyo nga gihatag. Alang sa kadaghanan sa mga serbisyo, ang yawe nga SLI giisip nga latency sa paghangyo - kung unsa kadugay ang kinahanglan aron mabalik ang tubag sa usa ka hangyo. Ang ubang mga komon nga SLI naglakip sa error rate, kasagaran gipahayag isip usa ka tipik sa tanang hangyo nga nadawat, ug system throughput, kasagaran gisukod sa mga hangyo kada segundo.

Una sa tanan, atong bungkagon ang mga eroplano, ug dayon ang mga babaye, ug dayon ang mga babaye...

Ang internal ug external nga mga hinungdan nagsugod sa "pagdaot" sa SLO gikan sa unang mga minuto. Ang tanan nahulog sa ulo sa mga tagdumala-mga sayup sa developer, pagkapakyas sa imprastraktura, pagdagsang sa mga bisita, ug pag-atake sa DDoS. Ang tanan nga nagpalala sa SLO.

Slurm SRE. Usa ka kompleto nga eksperimento uban sa mga eksperto gikan sa Booking.com ug Google.com
"- Minahal nga mga partisipante, ako nagdali sa pagpahimuot kanimo, ang unang butang nga imong napakyas mao ang ... tanan!"

Sa kadugayan, gihisgutan sa mga mamumulong ang kalig-on, badyet sa sayup, praktis sa pagsulay, pagdumala sa mga pagkabalda ug pagkarga sa operasyon.

Dili kami mga panday, dili mga panday...

Dayon ang mga partisipante nagsugod sa pag-ayo sa mga butang - ang nag-unang butang mao ang pagsabut kung unsa ang una nga makuha.

Slurm SRE. Usa ka kompleto nga eksperimento uban sa mga eksperto gikan sa Booking.com ug Google.com
"- Ginoo, wala pa ako nakakita nga kini nabuak sama niini, sa kini nga porma ug sa ingon nga posisyon!"

Busa, usa ka aksidente ang nahitabo. Ang serbisyo sa pagproseso sa pagbayad nawala. Giunsa paglihok aron mapasig-uli ang pagpaandar sa labing kadali nga panahon?

Slurm SRE. Usa ka kompleto nga eksperimento uban sa mga eksperto gikan sa Booking.com ug Google.com
Ang mga eksperto, nga nagtan-aw nga mabination sa mga partisipante, nag-andam sa laing limbong.

Ang matag team nag-organisar sa trabaho sa grupo aron mapapas ang aksidente - naglambigit sa mga kauban, nagpahibalo sa mga interesadong partido (mga stakeholder). Sa samang higayon, gitakda ang mga prayoridad. Niining paagiha, ang mga partisipante nagbansay sa pagtrabaho ubos sa pressure ubos sa limitado nga mga kondisyon sa panahon.

Slurm SRE. Usa ka kompleto nga eksperimento uban sa mga eksperto gikan sa Booking.com ug Google.com
“Unsang matanga sa kalisang ang migawas?!”

Exhale... ug tapusa ang ehersisyo

Uban sa mga mamumulong, human masulbad ang matag problema ug ang site temporaryo nga gipalig-on, gitun-an sa team ang mga insidente gikan sa punto sa SRE. Gi-analisar namon ang mga problema sa detalye - ang mga hinungdan sa panghitabo, ang pag-uswag sa pagwagtang. Pagkahuman niana, ang duha nga team-by-team ug kolektibo, naghimo kami mga desisyon kung giunsa nila mapugngan: kung giunsa ang pagpauswag sa pag-monitor, kung giunsa ang maalamon nga pagbag-o sa arkitektura, kung giunsa ang pag-adjust sa pamaagi sa pag-uswag ug operasyon, kung giunsa ang pagtul-id sa mga regulasyon. Gipakita sa mga mamumulong ang praktis sa pagpahigayon sa post-mortem.

Slurm SRE. Usa ka kompleto nga eksperimento uban sa mga eksperto gikan sa Booking.com ug Google.com
“Kinsa pa man ang gusto ug pagsakit! -Ako!"

Ang mga kalampusan sa mga team estrikto ug klaro nga natala sa electronic scoreboard.

Slurm SRE. Usa ka kompleto nga eksperimento uban sa mga eksperto gikan sa Booking.com ug Google.com

Alang sa unang mga dapit - usa ka bonus gikan sa mga stakeholder.

Slurm SRE. Usa ka kompleto nga eksperimento uban sa mga eksperto gikan sa Booking.com ug Google.com

Source: www.habr.com

Idugang sa usa ka comment