Slurm SRE. Booking.com və Google.com ekspertləri ilə davamlı təcrübə

Komandamız təcrübələri sevir. Hər Slurm əvvəlkilərin statik təkrarı deyil, təcrübənin əks olunması və yaxşıdan daha yaxşıya keçiddir. Amma ilə Slurm SRE biz tamamilə yeni format tətbiq etmək qərarına gəldik - iştirakçılara "döyüş" üçün mümkün qədər yaxın şərait yaratmaq.

İntensiv kurs zamanı gördüklərimizi qısaca qeyd etsək: “Biz tikirik, sındırırıq, təmir edirik,
oxuyuruq”. SRE sadəcə nəzəri cəhətdən az dəyərlidir - yalnız təcrübə, real həllər, real problemlər.

İştirakçılar komandalara bölündülər ki, güclü rəqabət ruhu heç kimin yuxuya getməsinə və ya Dmitri Anatolyeviçdən nümunə götürərək iPhone-da "Angry Birds" başlatmasına imkan verməsin.

Problemlər, nasazlıqlar, səhvlər və tapşırıqlar iştirakçılara dörd mentor tərəfindən təqdim edilib. İvan Kruqlov, Booking.com-un Baş Tərtibatçı (Hollandiya). Ben Tayler, Booking.com-da (ABŞ) Baş Tərtibatçı. Eduard Medvedev, Tungsten Labs şirkətinin texniki direktoru (Almaniya). Evgeniy Varavva, Google-da baş tərtibatçı (San-Fransisko).

Üstəlik, iştirakçılar komandalara bölünür və bir-biri ilə yarışırlar. Maraqlıdır?

Slurm SRE. Booking.com və Google.com ekspertləri ilə davamlı təcrübə
İvan, Ben, Eduard və Yevgeni yarış başlamazdan əvvəl mehriban Leninist gözləri ilə yoxsul Slurm SRE iştirakçılarına baxırlar.

Beləliklə, vəzifə:

Biz bizimik, yeni bir dünya quracağıq...

Kino bileti toplayıcı veb saytı var. Hadisələr əvvəlcədən işlənmiş ssenari üzrə mentorlar tərəfindən icad edilir (baxmayaraq ki, heç kim xüsusilə mürəkkəb və məkrli improvizasiyanı istisna etmir), saytın fəaliyyəti müxtəlif ölçülərlə təsvir olunur. Problemlər çox fərqli ola bilər: Moulin Rouge teatrına biletlər verilənlər bazasına yüklənmir; film və tamaşaların afişaları 10 saniyədən çox müddətə məlumat bazasına yüklənir; fərdi filmin təsviri donur; Sifarişlərin 0,1%-i artıq rezerv edilib; Zaman-zaman ödəniş emal sistemi bir-iki dəqiqə ərzində çökür. Və bir çox, çox, çox xoşagəlməz şeylər Slurm SRE iştirakçısının real işində başına gələ bilər.

Slurm SRE. Booking.com və Google.com ekspertləri ilə davamlı təcrübə
Biz hər şeyin öhdəsindən gəlməyə hazırıq...

Bizim çoxdan əziyyət çəkən veb saytımız bir neçə mikroservisdən ibarətdir. Onun vəzifəsi bütün kinoteatrlardan şoular, qiymətlər və mövcud oturacaqlar haqqında məlumatları toplamaqdan ibarətdir; o, film elanlarını göstərir, kinoteatr, şou, zal və yer seçmək, biletləri bron etmək və ödəmək imkanı verir. Ümumiyyətlə, tamaşaçının ancaq xəyal edə biləcəyi hər şey. Ancaq istifadəçi saytın sabitliyi və əlçatanlığı üçün hansı titanik mübarizənin getdiyindən şübhələnmir.

İntensiv sayt üçün biz SLO, SLI, SLA göstəriciləri yaratdıq, memarlıq və infrastruktur inkişaf etdirdik, saytı yerləşdirdik, monitorinq və xəbərdarlıq qurduq. Və uzaqlaşırıq.

SLO, SLI, SLA

SLI - xidmət səviyyəsinin göstəriciləri. SLO-lar xidmət səviyyəsinin məqsədləridir. SLA - xidmət səviyyəsi müqavilələri.

SLA bir ITIL metodologiyası terminidir və xidmətin müştərisi ilə onun təchizatçısı arasında xidmətin təsvirini, tərəflərin hüquq və öhdəliklərini və ən əsası bu xidmətin təmin edilməsi üçün razılaşdırılmış keyfiyyət səviyyəsini özündə əks etdirən rəsmi müqaviləni ifadə edir. xidmət.

SLO xidmət səviyyəsinin məqsədidir: SLI tərəfindən ölçülən xidmət səviyyəsi üçün hədəf dəyər və ya dəyərlər diapazonu. SLO üçün normal dəyər “SLI ≤ Target” və ya “Aşağı Limit ≤ SLI ≤ Yuxarı Limit”dir.

SLI xidmət səviyyəsinin göstəricisidir - göstərilən xidmət səviyyəsinin bir aspektinin diqqətlə müəyyən edilmiş kəmiyyət ölçüsüdür. Əksər xidmətlər üçün əsas SLI sorğunun gecikməsi hesab olunur - sorğuya cavabın qaytarılması nə qədər vaxt alır. Digər ümumi SLI-lərə adətən alınan bütün sorğuların bir hissəsi kimi ifadə edilən səhv dərəcəsi və adətən saniyədə sorğularla ölçülən sistem ötürmə qabiliyyəti daxildir.

Əvvəlcə təyyarələri qıracağıq, sonra qızları, sonra da qızları...

Daxili və xarici amillər SLO-nu elə ilk dəqiqələrdən “korlamağa” başladı. Hər şey administratorların başına düşdü - tərtibatçı səhvləri, infrastruktur uğursuzluqları, ziyarətçi axını və DDoS hücumları. SLO-nu pisləşdirən hər şey.

Slurm SRE. Booking.com və Google.com ekspertləri ilə davamlı təcrübə
“- Hörmətli iştirakçılar, sizi razı salmağa tələsirəm, uğursuz olduğunuz ilk şey... hər şeydir!”

Yol boyu natiqlər sabitlik, səhv büdcəsi, sınaq təcrübəsi, fasilələrin idarə edilməsi və əməliyyat yükünü müzakirə etdilər.

Biz alovçu deyilik, dülgər deyilik...

Sonra iştirakçılar şeyləri düzəltməyə başladılar - əsas odur ki, əvvəlcə nə tutacağını başa düşsün.

Slurm SRE. Booking.com və Google.com ekspertləri ilə davamlı təcrübə
"- Ya Rəbb, mən heç vaxt belə, bu formada və belə vəziyyətdə qırıldığını görməmişdim!"

Belə ki, qəza baş verib. Ödənişin emal xidməti dayandırılıb. Ən qısa müddətdə funksionallığı bərpa etmək üçün necə hərəkət etməli?

Slurm SRE. Booking.com və Google.com ekspertləri ilə davamlı təcrübə
İştirakçılara mehribanlıqla baxan ekspertlər daha bir hiylə hazırlayırlar.

Hər bir komanda qəzanın aradan qaldırılması üçün qrupun işini təşkil edir - həmkarlarını cəlb edir, maraqlı tərəfləri (maraqlı tərəfləri) xəbərdar edir. Eyni zamanda, prioritetlər müəyyən edilir. Beləliklə, iştirakçılar son dərəcə məhdud vaxt şəraitində təzyiq altında işləmək üçün məşq etdilər.

Slurm SRE. Booking.com və Google.com ekspertləri ilə davamlı təcrübə
"Nə dəhşət çıxdı?!"

Nəfəs verin... və məşqi bitirin

Natiqlərlə birlikdə hər bir problem aradan qaldırıldıqdan və sayt müvəqqəti stabilləşdirildikdən sonra komanda hadisələri SRE baxımından öyrənib. Problemləri - baş vermə səbəblərini, aradan qaldırılmasının gedişatını ətraflı təhlil etdik. Bundan sonra həm komanda-komanda, həm də kollektiv şəkildə onların qarşısının alınmasına dair qərarlar qəbul etdik: monitorinqi necə təkmilləşdirmək, arxitekturanı ağıllı şəkildə dəyişmək, inkişafa və istismara yanaşmanı necə tənzimləmək, qaydaları necə düzəltmək. Çıxış edənlər ölümdən sonra müayinənin aparılması təcrübəsini nümayiş etdirdilər.

Slurm SRE. Booking.com və Google.com ekspertləri ilə davamlı təcrübə
“Başqa kim əzab istəyir! - Mən!"

Komandaların uğurları elektron tabloda ciddi və aydın şəkildə qeydə alınıb.

Slurm SRE. Booking.com və Google.com ekspertləri ilə davamlı təcrübə

Birinci yerlər üçün - maraqlı tərəflərdən bonus.

Slurm SRE. Booking.com və Google.com ekspertləri ilə davamlı təcrübə

Mənbə: www.habr.com

Добавить комментарий