Slurm SRE. Jaribio kamili na wataalamu kutoka Booking.com na Google.com

Timu yetu inapenda majaribio. Kila Slurm sio marudio tuli ya yale yaliyotangulia, lakini tafakari ya uzoefu na mabadiliko kutoka kwa nzuri hadi bora. Lakini na Slurm SRE tuliamua kutumia muundo mpya kabisa - kuwapa washiriki masharti karibu iwezekanavyo ili "kupigana".

Ikiwa tutaelezea kwa ufupi kile tulichofanya wakati wa kozi kubwa: "Tunajenga, tunavunja, tunatengeneza,
tunasoma." SRE haina thamani kidogo katika nadharia tu - mazoezi tu, suluhisho halisi, shida za kweli.

Washiriki waligawanywa katika timu ili roho ya ushindani yenye nguvu isiruhusu mtu yeyote kulala au kuzindua "Ndege wenye hasira" kwenye iPhone, kwa kufuata mfano wa Dmitry Anatolyevich.

Matatizo, makosa, hitilafu na kazi zilitolewa kwa washiriki na washauri wanne. Ivan Kruglov, Msanidi Mkuu katika Booking.com (Uholanzi). Ben Tyler, Msanidi Mkuu katika Booking.com (USA). Eduard Medvedev, CTO katika Tungsten Labs (Ujerumani). Evgeniy Varavva, msanidi mkuu wa Google (San Francisco).

Kwa kuongezea, washiriki wamegawanywa katika timu na kushindana na kila mmoja. Inavutia?

Slurm SRE. Jaribio kamili na wataalamu kutoka Booking.com na Google.com
Ivan, Ben, Eduard na Evgeniy wanaangalia washiriki maskini wa Slurm SRE wakiwa na macho ya fadhili ya Leninist kabla ya kuanza kwa shindano.

Kwa hivyo jukumu:

Sisi ni wetu, tutajenga ulimwengu mpya ...

Kuna tovuti ya kikusanya tikiti za filamu. Matukio huvumbuliwa na washauri katika hali iliyofanyiwa kazi awali (ingawa hakuna anayeondoa uboreshaji wa hali ya juu na wa hila), utendakazi wa tovuti unaelezewa na vipimo mbalimbali. Matatizo yanaweza kuwa tofauti sana: tikiti za ukumbi wa michezo wa Moulin Rouge hazijapakiwa kwenye hifadhidata; mabango ya filamu na maonyesho yanapakiwa kwenye hifadhidata kwa zaidi ya sekunde 10; maelezo ya filamu ya mtu binafsi kufungia; 0,1% ya maagizo tayari yamehifadhiwa; Mara kwa mara mfumo wa usindikaji wa malipo huanguka kwa dakika moja au mbili. Na mambo mengi, mengi, mengi yasiyofurahisha ambayo yanaweza kumpata mshiriki wa Slurm SRE kwenye kazi yake halisi.

Slurm SRE. Jaribio kamili na wataalamu kutoka Booking.com na Google.com
Tuko tayari kushughulikia chochote ... na kila mtu.

Tovuti yetu ya muda mrefu ina huduma ndogo ndogo. Jukumu lake ni kujumlisha data ya maonyesho, bei na viti vinavyopatikana kutoka kwa sinema zote; inaonyesha matangazo ya filamu, hukuruhusu kuchagua sinema, onyesho, ukumbi na mahali, kuweka miadi na kulipia tikiti. Kwa ujumla, kila kitu ambacho mtazamaji anaweza kuota tu. Lakini mtumiaji hata hashuku ni nini mapambano ya titanic kwa utulivu na ufikiaji wa tovuti yanaendelea ndani.

Kwa tovuti kubwa, tulizalisha viashiria vya SLO, SLI, SLA, usanifu ulioendelezwa na miundombinu, tukasambaza tovuti, kuanzisha ufuatiliaji na tahadhari. Na tunaenda mbali.

SLO, SLI, SLA

SLI - viashiria vya kiwango cha huduma. SLO ni malengo ya kiwango cha huduma. SLA - mikataba ya kiwango cha huduma.

SLA ni neno la mbinu ya ITIL linaloashiria makubaliano rasmi kati ya mteja wa huduma na mtoaji wake, yenye maelezo ya huduma, haki na wajibu wa wahusika na, muhimu zaidi, kiwango cha ubora kilichokubaliwa kwa utoaji wa hii. huduma.

SLO ni lengo la kiwango cha huduma: thamani inayolengwa au anuwai ya thamani kwa kiwango cha huduma ambayo hupimwa na SLI. Thamani ya kawaida ya SLO ni "SLI ≀ Lengo" au "Kikomo cha Chini ≀ SLI ≀ Kikomo cha Juu".

SLI ni kiashirio cha kiwango cha hudumaβ€”kipimo kilichofafanuliwa kwa uangalifu cha kiasi cha kipengele kimoja cha kiwango cha huduma inayotolewa. Kwa huduma nyingi, SLI muhimu inachukuliwa kuwa muda wa ombi - inachukua muda gani kurejesha jibu kwa ombi. SLI zingine za kawaida ni pamoja na kiwango cha makosa, ambacho mara nyingi huonyeshwa kama sehemu ya maombi yote yanayopokelewa, na matokeo ya mfumo, ambayo kawaida hupimwa kwa maombi kwa sekunde.

Kwanza kabisa, tutavunja ndege, na kisha wasichana, na kisha wasichana ...

Mambo ya ndani na nje yalianza "kuharibu" SLO kutoka dakika za kwanza kabisa. Kila kitu kilianguka juu ya vichwa vya wasimamizi-makosa ya wasanidi programu, kushindwa kwa miundombinu, kuingia kwa wageni, na mashambulizi ya DDoS. Kila kitu ambacho kinazidisha SLO.

Slurm SRE. Jaribio kamili na wataalamu kutoka Booking.com na Google.com
"- Washiriki wapendwa, ninaharakisha kuwafurahisha, jambo la kwanza mnaloshindwa ni ... kila kitu!"

Njiani, wasemaji walijadili uthabiti, bajeti ya makosa, mazoezi ya upimaji, usimamizi wa usumbufu na mzigo wa uendeshaji.

Sisi sio wachoraji, sio maseremala ...

Kisha washiriki walianza kurekebisha mambo - jambo kuu ni kuelewa nini cha kunyakua kwanza.

Slurm SRE. Jaribio kamili na wataalamu kutoka Booking.com na Google.com
"- Bwana, sijawahi kuiona ikivunjika hivi, katika hali hii na katika hali kama hii!"

Kwa hivyo, ajali ilitokea. Huduma ya usindikaji wa malipo imepungua. Jinsi ya kuchukua hatua ili kurejesha utendaji kwa muda mfupi iwezekanavyo?

Slurm SRE. Jaribio kamili na wataalamu kutoka Booking.com na Google.com
Wataalamu, wakiwaangalia washiriki kwa upendo, wanatayarisha hila nyingine.

Kila timu inapanga kazi ya kikundi ili kuondoa ajali - inahusisha wenzake, inaarifu wahusika (wadau). Wakati huo huo, vipaumbele vinawekwa. Kwa njia hii, washiriki walifunzwa kufanya kazi chini ya shinikizo chini ya hali ya muda mfupi sana.

Slurm SRE. Jaribio kamili na wataalamu kutoka Booking.com na Google.com
"Ni aina gani ya kutisha imetokea?!"

Exhale ... na kumaliza zoezi

Pamoja na wasemaji, baada ya kila tatizo kutatuliwa na tovuti ilikuwa imetulia kwa muda, timu ilisoma matukio kutoka kwa mtazamo wa SRE. Tulichambua matatizo kwa undani - sababu za tukio, maendeleo ya kuondoa. Baada ya hayo, timu kwa timu na kwa pamoja, tulifanya maamuzi juu ya jinsi ya kuwazuia zaidi: jinsi ya kuboresha ufuatiliaji, jinsi ya kubadili kwa busara usanifu, jinsi ya kurekebisha mbinu ya maendeleo na uendeshaji, jinsi ya kurekebisha kanuni. Wazungumzaji walionyesha mazoezi ya kufanya uchunguzi wa maiti.

Slurm SRE. Jaribio kamili na wataalamu kutoka Booking.com na Google.com
"Nani mwingine anataka mateso! - Mimi!"

Mafanikio ya timu yalirekodiwa kwa uwazi na kwa uwazi kwenye ubao wa matokeo wa kielektroniki.

Slurm SRE. Jaribio kamili na wataalamu kutoka Booking.com na Google.com

Kwa nafasi za kwanza - bonasi kutoka kwa wadau.

Slurm SRE. Jaribio kamili na wataalamu kutoka Booking.com na Google.com

Chanzo: mapenzi.com

Kuongeza maoni