Slurm SRE. Booking.com va Google.com mutaxassislari bilan to'liq tajriba

Bizning jamoamiz tajribalarni yaxshi ko'radi. Har bir Slurm avvalgilarning statik takrorlanishi emas, balki tajriba haqida aks ettirish va yaxshilikdan yaxshiroqga o'tishdir. Lekin bilan Slurm SRE biz mutlaqo yangi formatni qo'llashga qaror qildik - ishtirokchilarga "jangovar" uchun imkon qadar yaqin sharoitlarni berish.

Agar intensiv kurs davomida nima qilganimizni qisqacha bayon qilsak: "Biz quramiz, buzamiz, ta'mirlaymiz,
biz o'qiymiz." SRE nazariy jihatdan juda kam qiymatga ega - faqat amaliyot, haqiqiy echimlar, haqiqiy muammolar.

Ishtirokchilar jamoalarga bo'lingan, shunda kuchli raqobat ruhi Dmitriy Anatolevichdan o'rnak olib, hech kimning uxlab qolishiga yoki iPhone-da "Angry Birds" ni ishga tushirishiga yo'l qo'ymaydi.

Muammolar, nosozliklar, xatolar va topshiriqlar ishtirokchilarga to‘rt nafar murabbiy tomonidan taqdim etildi. Ivan Kruglov, Booking.com bosh dasturchisi (Niderlandiya). Ben Tayler, Booking.com bosh dasturchisi (AQSh). Eduard Medvedev, Tungsten Labs (Germaniya) texnik direktori. Evgeniy Varavva, Google kompaniyasining bosh dasturchisi (San-Fransisko).

Bundan tashqari, ishtirokchilar jamoalarga bo'lingan va bir-birlari bilan raqobatlashadilar. Qiziqmi?

Slurm SRE. Booking.com va Google.com mutaxassislari bilan to'liq tajriba
Ivan, Ben, Eduard va Evgeniy musobaqa boshlanishidan oldin Slurm SRE kambag'al ishtirokchilariga mehribon lenincha ko'zlari bilan qarashadi.

Shunday qilib, vazifa:

Biz o'zimiznikimiz, biz yangi dunyo quramiz...

Kino chiptalarini yig'uvchi veb-sayt mavjud. Hodisalar murabbiylar tomonidan oldindan ishlangan stsenariy bo'yicha ixtiro qilinadi (garchi hech kim ayniqsa murakkab va makkor improvizatsiyani istisno qilmasa ham), saytning ishlashi turli ko'rsatkichlar bilan tavsiflanadi. Muammolar juda boshqacha bo'lishi mumkin: Moulin Rouge teatri uchun chiptalar ma'lumotlar bazasiga yuklanmagan; filmlar va spektakllarning plakatlari ma'lumotlar bazasiga 10 soniyadan ko'proq vaqt ichida yuklanadi; individual filmning tavsifi muzlaydi; Buyurtmalarning 0,1% allaqachon band qilingan; Vaqti-vaqti bilan to'lovni qayta ishlash tizimi bir-ikki daqiqaga ishlamay qoladi. Va Slurm SRE ishtirokchisiga haqiqiy ish joyida duch kelishi mumkin bo'lgan juda ko'p, juda ko'p yoqimsiz narsalar.

Slurm SRE. Booking.com va Google.com mutaxassislari bilan to'liq tajriba
Biz hamma narsani hal qilishga tayyormiz... va hamma.

Bizning uzoq sabrli veb-saytimiz bir nechta mikroservislardan iborat. Uning vazifasi shoular, narxlar va barcha kinoteatrlardagi mavjud o‘rindiqlar to‘g‘risidagi ma’lumotlarni jamlashdan iborat bo‘lib, filmlar haqidagi e’lonlarni ko‘rsatadi, kinoteatr, shou, zal va joy tanlash, chiptalarni bron qilish va to‘lash imkonini beradi. Umuman olganda, tomoshabin faqat orzu qilishi mumkin bo'lgan hamma narsa. Ammo foydalanuvchi saytning barqarorligi va kirish imkoniyati uchun qanday titanik kurash olib borilayotganidan shubhalanmaydi.

Intensiv sayt uchun biz SLO, SLI, SLA ko'rsatkichlarini yaratdik, arxitektura va infratuzilmani ishlab chiqdik, saytni joylashtirdik, monitoring va ogohlantirishni o'rnatdik. Va biz ketamiz.

SLO, SLI, SLA

SLI - xizmat ko'rsatish darajasi ko'rsatkichlari. SLO - bu xizmat darajasidagi maqsadlar. SLA - xizmat ko'rsatish darajasidagi shartnomalar.

SLA - bu ITIL metodologiyasi atamasi bo'lib, xizmat ko'rsatish mijozi va uning yetkazib beruvchisi o'rtasidagi rasmiy shartnomani bildiradi, unda xizmat tavsifi, tomonlarning huquq va majburiyatlari va eng muhimi, ushbu xizmatni taqdim etish bo'yicha kelishilgan sifat darajasi mavjud. xizmat.

SLO - bu xizmat darajasining maqsadi: SLI tomonidan o'lchanadigan xizmat darajasi uchun maqsadli qiymat yoki qiymatlar diapazoni. SLO uchun oddiy qiymat “SLI ≤ Target” yoki “Quyi chegara ≤ SLI ≤ Yuqori chegara”dir.

SLI - bu xizmat ko'rsatish darajasi ko'rsatkichi - taqdim etilayotgan xizmatlar darajasining bir jihatining diqqat bilan belgilangan miqdoriy o'lchovidir. Aksariyat xizmatlar uchun SLI kaliti so'rovning kechikishi hisoblanadi - so'rovga javob qaytarish uchun qancha vaqt ketadi. Boshqa keng tarqalgan SLIlar odatda qabul qilingan barcha so'rovlarning bir qismi sifatida ifodalangan xatolik darajasi va odatda soniyada so'rovlarda o'lchanadigan tizim o'tkazuvchanligini o'z ichiga oladi.

Avval samolyotlarni sindiramiz, keyin qizlar, keyin qizlar...

Ichki va tashqi omillar SLOni birinchi daqiqalardanoq "buz" qila boshladi. Hammasi ma'murlarning boshiga tushdi - ishlab chiquvchilarning xatolari, infratuzilmadagi nosozliklar, tashrif buyuruvchilar oqimi va DDoS hujumlari. SLOni yomonlashtiradigan hamma narsa.

Slurm SRE. Booking.com va Google.com mutaxassislari bilan to'liq tajriba
"- Hurmatli ishtirokchilar, men sizni xursand qilishga shoshilyapman, siz muvaffaqiyatsizlikka uchragan birinchi narsa bu ... hammasi!"

Yo'l davomida ma'ruzachilar barqarorlik, xatolar byudjeti, sinov amaliyoti, uzilishlarni boshqarish va operatsion yukni muhokama qildilar.

Biz duradgor ham emasmiz...

Keyin ishtirokchilar narsalarni tuzatishga kirishdilar - asosiysi, birinchi navbatda nimani qo'lga kiritish kerakligini tushunish.

Slurm SRE. Booking.com va Google.com mutaxassislari bilan to'liq tajriba
"- Rabbim, men hech qachon bunday, bu shaklda va bunday holatda singanini ko'rmaganman!"

Shunday qilib, baxtsiz hodisa yuz berdi. Toʻlovni qayta ishlash xizmati ishlamayapti. Eng qisqa vaqt ichida funksionallikni tiklash uchun qanday harakat qilish kerak?

Slurm SRE. Booking.com va Google.com mutaxassislari bilan to'liq tajriba
Mutaxassislar ishtirokchilarga mehr bilan qarab, yana bir hiyla tayyorlamoqda.

Har bir jamoa avariyani bartaraf etish bo'yicha guruh ishini tashkil qiladi - hamkasblarni jalb qiladi, manfaatdor tomonlarni (manfaatdor tomonlarni) xabardor qiladi. Shu bilan birga, ustuvorliklar belgilanadi. Shu tarzda ishtirokchilar juda cheklangan vaqt sharoitida bosim ostida ishlashga o'rgatishdi.

Slurm SRE. Booking.com va Google.com mutaxassislari bilan to'liq tajriba
"Qanday dahshat chiqdi?!"

Nafas oling... va mashqni tugating

Ma'ruzachilar bilan birgalikda har bir muammo hal qilingandan va sayt vaqtincha barqarorlashgandan so'ng, jamoa voqealarni SRE nuqtai nazaridan o'rganib chiqdi. Biz muammolarni batafsil tahlil qildik - yuzaga kelish sabablari, bartaraf etish jarayoni. Shundan so'ng, jamoama-jamoa, ham jamoaviy ravishda biz ularni yanada oldini olish bo'yicha qarorlar qabul qildik: monitoringni qanday yaxshilash, arxitekturani qanday oqilona o'zgartirish, rivojlanish va ishlashga yondashuvni qanday tuzatish, qoidalarni qanday tuzatish kerak. Ma’ruzachilar o‘limdan keyingi o‘limni o‘tkazish amaliyotini namoyish etdilar.

Slurm SRE. Booking.com va Google.com mutaxassislari bilan to'liq tajriba
“Yana kim azobni xohlaydi! - Men!"

Jamoalarning muvaffaqiyatlari elektron tabloda qat'iy va aniq qayd etildi.

Slurm SRE. Booking.com va Google.com mutaxassislari bilan to'liq tajriba

Birinchi o'rinlar uchun - manfaatdor tomonlardan bonus.

Slurm SRE. Booking.com va Google.com mutaxassislari bilan to'liq tajriba

Manba: www.habr.com

a Izoh qo'shish