Slurm SRE. Esperiment sħiħ ma' esperti minn Booking.com u Google.com

It-tim tagħna jħobb l-esperimenti. Kull Slurm mhix ripetizzjoni statika ta’ dawk ta’ qabel, iżda riflessjoni fuq l-esperjenza u tranżizzjoni minn tajjeb għal aħjar. Iżda ma Slurm SRE iddeċidejna li napplikaw format kompletament ġdid - biex nagħtu lill-parteċipanti kundizzjonijiet qrib kemm jista 'jkun għal "ġlieda kontra".

Jekk niddeskrivu fil-qosor dak li għamilna matul il-kors intensiv: “Nibnu, inkissru, insewwu,
qed nistudjaw." L-SRE ftit jiswew biss fit-teorija - prattika biss, soluzzjonijiet reali, problemi reali.

Il-parteċipanti kienu maqsuma f'timijiet sabiex spirtu kompetittiv qawwi ma jħalli lil ħadd jorqod jew iniedi "Angry Birds" fuq l-iPhone, wara l-eżempju ta 'Dmitry Anatolyevich.

Problemi, glitches, bugs u kompiti ġew ipprovduti lill-parteċipanti minn erba 'parrini. Ivan Kruglov, Iżviluppatur Prinċipali fuq Booking.com (l-Olanda). Ben Tyler, Iżviluppatur Prinċipali fi Booking.com (USA). Eduard Medvedev, CTO fit-Tungsten Labs (il-Ġermanja). Evgeniy Varavva, żviluppatur ġenerali fil-Google (San Francisco).

Barra minn hekk, il-parteċipanti huma maqsuma fi timijiet u jikkompetu ma 'xulxin. Interessanti?

Slurm SRE. Esperiment sħiħ ma' esperti minn Booking.com u Google.com
Ivan, Ben, Eduard u Evgeniy iħarsu lejn il-parteċipanti foqra ta' Slurm SRE b'squints ġentili Leninisti qabel il-bidu tal-kompetizzjoni.

Allura l-kompitu:

Aħna tagħna, se nibnu dinja ġdida...

Hemm websajt tal-aggregatur tal-biljetti tal-films. L-inċidenti huma ivvintati minn mentors f'xenarju maħdum minn qabel (għalkemm ħadd ma jeskludi improvizzazzjoni partikolarment sofistikata u insidjuża), il-prestazzjoni tas-sit hija deskritta b'diversi metriċi. Il-problemi jistgħu jkunu differenti ħafna: il-biljetti għat-teatru Moulin Rouge mhumiex mgħobbija fid-database; posters ta' films u wirjiet jitgħabbew fid-database f'aktar minn 10 sekondi; id-deskrizzjoni ta' film individwali tiffriża; 0,1% tal-ordnijiet huma diġà riżervati; Minn żmien għal żmien is-sistema tal-ipproċessar tal-ħlas tiġġarraf għal minuta jew tnejn. U ħafna, ħafna, ħafna affarijiet spjaċevoli li jistgħu jaqgħu fuq parteċipant Slurm SRE fix-xogħol reali tiegħu.

Slurm SRE. Esperiment sħiħ ma' esperti minn Booking.com u Google.com
Aħna lesti li nittrattaw kull ħaġa... u kulħadd.

Il-websajt tagħna li qed ibati fit-tul tikkonsisti f'diversi mikroservizzi. Il-kompitu tiegħu huwa li jaggrega data dwar wirjiet, prezzijiet u postijiet disponibbli mis-swali taċ-ċinema kollha; juri avviżi ta’ films, jippermettilek tagħżel ċinema, spettaklu, sala u post, tibbukkja u tħallas għall-biljetti. B'mod ġenerali, dak kollu li t-telespettatur jista 'biss joħlom. Iżda l-utent lanqas biss jissuspetta x'taqbida titanika għall-istabbiltà u l-aċċessibbiltà tas-sit għaddejja ġewwa.

Għas-sit intensiv, iġġenerajna indikaturi SLO, SLI, SLA, żviluppajna arkitettura u infrastruttura, skjerajna s-sit, waqqafna monitoraġġ u twissija. U ‘l bogħod immorru.

SLO, SLI, SLA

SLI - indikaturi tal-livell tas-servizz. SLOs huma miri fil-livell tas-servizz. SLA - ftehimiet dwar il-livell tas-servizz.

SLA huwa terminu ta' metodoloġija ITIL li jindika ftehim formali bejn il-klijent ta' servizz u l-fornitur tiegħu, li fih deskrizzjoni tas-servizz, id-drittijiet u l-obbligi tal-partijiet u, l-aktar importanti, il-livell miftiehem ta' kwalità għall-forniment ta' dan. servizz.

SLO huwa għan ta' livell ta' servizz: valur fil-mira jew firxa ta' valuri għal livell ta' servizz li jitkejjel mill-SLI. Valur normali għal SLO huwa “SLI ≤ Target” jew “Limitu Inferjuri ≤ SLI ≤ Limitu Superjuri”.

L-SLI huwa indikatur tal-livell tas-servizz—kejl kwantitattiv definit bir-reqqa ta' aspett wieħed tal-livell ta' servizz ipprovdut. Għall-biċċa l-kbira tas-servizzi, l-SLI ewlieni jitqies bħala latenza tat-talba - kemm iddum biex tirritorna tweġiba għal talba. SLIs komuni oħra jinkludu rata ta 'żball, spiss espressa bħala frazzjoni tat-talbiet kollha riċevuti, u t-trażmissjoni tas-sistema, normalment imkejla f'talbiet kull sekonda.

L-ewwel nett se nkissru l-ajruplani, u mbagħad il-bniet, u mbagħad il-bniet...

Fatturi interni u esterni bdew "jħassru" SLO mill-ewwel minuti. Kollox waqa 'fuq l-amministraturi—żbalji tal-iżviluppaturi, fallimenti fl-infrastruttura, influss ta' viżitaturi, u attakki DDoS. Dak kollu li jaggrava SLO.

Slurm SRE. Esperiment sħiħ ma' esperti minn Booking.com u Google.com
"- Għeżież parteċipanti, ngħaġġel nogħġobkom, l-ewwel ħaġa li tfalli hija... kollox!"

Tul it-triq, il-kelliema ddiskutew l-istabbiltà, il-baġit tal-iżbalji, il-prattika tal-ittestjar, il-ġestjoni tal-interruzzjonijiet u t-tagħbija operattiva.

Aħna m'aħniex ċokers, mhux mastrudaxxi...

Imbagħad il-parteċipanti bdew jirranġaw l-affarijiet - il-ħaġa ewlenija hija li tifhem x'għandek taqbad l-ewwel.

Slurm SRE. Esperiment sħiħ ma' esperti minn Booking.com u Google.com
“- Mulej, qatt ma rajtha tkisser hekk, f’din il-forma u f’pożizzjoni bħal din!”

Għalhekk, seħħ inċident. Is-servizz tal-ipproċessar tal-ħlas huwa mwaqqaf. Kif taġixxi biex tirrestawra l-funzjonalità fl-iqsar żmien possibbli?

Slurm SRE. Esperiment sħiħ ma' esperti minn Booking.com u Google.com
L-esperti, iħarsu b'affezzjoni lejn il-parteċipanti, qed jippreparaw trick ieħor.

Kull tim jorganizza l-ħidma tal-grupp biex jelimina l-inċident - jinvolvi kollegi, jinnotifika lill-partijiet interessati (partijiet interessati). Fl-istess ħin, jiġu stabbiliti l-prijoritajiet. B'dan il-mod, il-parteċipanti tħarrġu biex jaħdmu taħt pressjoni taħt kundizzjonijiet ta 'żmien estremament limitati.

Slurm SRE. Esperiment sħiħ ma' esperti minn Booking.com u Google.com
"X'tip ta' orrur ħareġ?!"

Exhale... u spiċċa l-eżerċizzju

Flimkien mal-kelliema, wara li kull problema ġiet solvuta u s-sit ġie stabbilizzat temporanjament, it-tim studja l-inċidenti mil-lat tal-SRE. Aħna analizzajna l-problemi fid-dettall - il-kawżi tal-okkorrenza, il-progress tal-eliminazzjoni. Wara dan, kemm tim b'tim kif ukoll kollettivament, ħadna deċiżjonijiet dwar kif nipprevjenuhom aktar: kif intejbu l-monitoraġġ, kif nibdlu b'mod għaqli l-arkitettura, kif taġġusta l-approċċ għall-iżvilupp u l-operat, kif tikkoreġi r-regolamenti. Il-kelliema wrew il-prattika li jmexxu post-mortem.

Slurm SRE. Esperiment sħiħ ma' esperti minn Booking.com u Google.com
“Min aktar irid it-turment! - Jien!"

Is-suċċessi tat-timijiet ġew irreġistrati b'mod strett u ċar fuq l-iscoreboard elettroniku.

Slurm SRE. Esperiment sħiħ ma' esperti minn Booking.com u Google.com

Għall-ewwel postijiet - bonus mill-partijiet interessati.

Slurm SRE. Esperiment sħiħ ma' esperti minn Booking.com u Google.com

Sors: www.habr.com

Żid kumment