Slurm SRE. Yon eksperyans konplè ak ekspè nan Booking.com ak Google.com

Ekip nou an renmen eksperyans. Chak Slurm se pa yon repetisyon estatik nan sa yo anvan yo, men yon refleksyon sou eksperyans nan ak yon tranzisyon soti nan bon nan pi bon. Men, avèk Slurm SRE nou deside aplike yon fòma konplètman nouvo - bay patisipan yo kondisyon pi pre ke posib nan "konba".

Si nou pale tou kout sa nou te fè pandan kou entansif la: “Nou bati, nou kraze, nou repare,
nou ap etidye." SRE pa vo anyen nan teyori sèlman - sèlman pratik, solisyon reyèl, pwoblèm reyèl.

Patisipan yo te divize an ekip pou yon lespri konpetitif wòdpòte pa ta pèmèt pèsonn tonbe nan dòmi oswa lanse "Angry Birds" sou iPhone a, swiv egzanp Dmitry Anatolyevich.

Pwoblèm, pwoblèm, pinèz ak travay yo te bay patisipan yo pa kat konseye. Ivan Kruglov, Devlopè Prensipal nan Booking.com (Netherlands). Ben Tyler, Devlopè prensipal nan Booking.com (USA). Eduard Medvedev, CTO nan Tungsten Labs (Almay). Evgeniy Varavva, pwomotè jeneral nan Google (San Francisco).

Anplis, patisipan yo divize an ekip ak konpetisyon youn ak lòt. Enteresan?

Slurm SRE. Yon eksperyans konplè ak ekspè nan Booking.com ak Google.com
Ivan, Ben, Eduard ak Evgeniy gade patisipan pòv Slurm SRE yo ak janti Leninist squints anvan kòmansman konpetisyon an.

Se konsa, travay la:

Nou se nou, nou pral bati yon nouvo mond...

Gen yon sit entènèt agrégateur tikè fim. Ensidan yo envante pa konseye nan yon senaryo pre-travay (byenke pesonn pa ekskli enpwovizasyon patikilyèman sofistike ak trètr), pèfòmans nan sit la dekri pa divès mezi. Pwoblèm yo ka trè diferan: tikè pou teyat Moulin Rouge yo pa chaje nan baz done a; postè fim ak pèfòmans yo chaje nan baz done a nan plis pase 10 segonn; deskripsyon an nan yon fim endividyèl jele; 0,1% nan lòd yo deja rezève; De tan zan tan sistèm nan pwosesis peman aksidan pou yon minit oswa de. Ak anpil, anpil, anpil bagay dezagreyab ki ka rive yon patisipan Slurm SRE nan vrè travay li.

Slurm SRE. Yon eksperyans konplè ak ekspè nan Booking.com ak Google.com
Nou pare pou okipe nenpòt bagay... ak tout moun.

Sit entènèt ki gen anpil pasyans nou an gen plizyè mikwosèvis. Travay li se rasanble done sou montre, pri ak plas ki disponib nan tout sinema li montre anons fim, pèmèt ou chwazi yon sinema, espektak, sal ak kote, liv ak peye pou tikè; An jeneral, tout bagay ke telespektatè a ka sèlman rèv la. Se sèlman itilizatè a pa menm sispèk ki sa yon lit titan pou estabilite ak aksè nan sit la ap pase andedan.

Pou sit entansif la, nou te pwodwi endikatè SLO, SLI, SLA, devlope achitekti ak enfrastrikti, deplwaye sit la, mete siveyans ak alèt. Epi nou ale.

SLO, SLI, SLA

SLI - endikatè nivo sèvis yo. SLO yo se objektif nivo sèvis yo. SLA - akò nivo sèvis.

SLA se yon tèm metodoloji ITIL ki vle di yon akò fòmèl ant kliyan yon sèvis ak founisè li a, ki gen yon deskripsyon sèvis la, dwa ak obligasyon pati yo ak, sa ki pi enpòtan, nivo bon jan kalite yo te dakò pou dispozisyon sa a. sèvis.

Yon SLO se yon objektif nivo sèvis: yon valè sib oswa yon seri valè pou yon nivo sèvis ki mezire pa SLI a. Yon valè nòmal pou SLO se "SLI ≤ sib" oswa "Limit pi ba ≤ SLI ≤ Limit siperyè".

SLI a se yon endikatè nivo sèvis—yon mezi quantitative ak anpil atansyon defini nan yon aspè nan nivo sèvis yo bay la. Pou pifò sèvis yo, SLI kle a konsidere kòm latansi demann - konbyen tan li pran pou retounen yon repons a yon demann. Lòt SLI komen yo enkli pousantaj erè, souvan eksprime kòm yon fraksyon nan tout demann ou resevwa, ak debi sistèm, anjeneral, mezire nan demann pou chak segonn.

Premyerman, nou pral kraze avyon yo, epi apre sa tifi yo, epi apre tifi yo...

Faktè entèn ak ekstèn yo te kòmanse "gate" SLO depi premye minit yo. Tout bagay te tonbe sou tèt administratè yo - erè pwomotè, echèk enfrastrikti, yon foul vizitè, ak atak DDoS. Tout sa ki vin pi mal SLO.

Slurm SRE. Yon eksperyans konplè ak ekspè nan Booking.com ak Google.com
"- Chè patisipan yo, mwen prese fè ou plezi, premye bagay ou echwe se ... tout bagay!"

Sou wout la, oratè yo te diskite sou estabilite, bidjè erè, pratik tès, jesyon entèripsyon ak chaj operasyonèl.

Nou pa bousyèr, pa bòs chapant...

Lè sa a, patisipan yo te kòmanse ranje bagay sa yo - bagay prensipal la se yo konprann ki sa yo gen tan pwan an premye.

Slurm SRE. Yon eksperyans konplè ak ekspè nan Booking.com ak Google.com
"- Seyè, mwen pa janm wè li kraze konsa, nan fòm sa a ak nan yon pozisyon konsa!"

Se konsa, yon aksidan te fèt. Sèvis pwosesis peman an desann. Ki jan yo aji retabli fonksyonalite nan tan ki pi kout posib?

Slurm SRE. Yon eksperyans konplè ak ekspè nan Booking.com ak Google.com
Ekspè yo, gade patisipan yo avèk afeksyon, ap prepare yon lòt trick.

Chak ekip òganize travay la nan gwoup la elimine aksidan an - enplike kòlèg li yo, notifye pati ki enterese (moun ki gen enterè). An menm tan, priyorite yo tabli. Nan fason sa a, patisipan yo te antrene pou yo travay anba presyon nan kondisyon tan trè limite.

Slurm SRE. Yon eksperyans konplè ak ekspè nan Booking.com ak Google.com
"Ki kalite laterè ki soti?!"

Rann souf... epi fini egzèsis la

Ansanm ak oratè yo, apre chak pwoblèm yo te rezoud epi sit la te estabilize tanporèman, ekip la te etidye ensidan yo nan yon pwen de vi SRE. Nou analize pwoblèm yo an detay - kòz yo nan ensidan an, pwogrè nan eliminasyon. Apre sa, tou de ekip pa ekip ak kolektivman, nou te pran desizyon sou fason pou plis anpeche yo: ki jan yo amelyore siveyans, ki jan yo avèk sajès chanje achitekti a, ki jan yo ajiste apwòch la nan devlopman ak operasyon, ki jan yo korije règleman yo. Oratè yo te demontre pratik pou fè post-mortem.

Slurm SRE. Yon eksperyans konplè ak ekspè nan Booking.com ak Google.com
"Ki lòt moun ki vle touman! - Mwen!"

Siksè ekip yo te anrejistre byen klè sou tablo skor elektwonik la.

Slurm SRE. Yon eksperyans konplè ak ekspè nan Booking.com ak Google.com

Pou premye kote - yon bonis nan men moun ki gen enterè yo.

Slurm SRE. Yon eksperyans konplè ak ekspè nan Booking.com ak Google.com

Sous: www.habr.com

Add nouvo kòmantè