"Ümid pis strategiyadır." Moskvada SRE intensiv, 3-5 fevral

Rusiyada SRE üzrə ilk praktiki kursu elan edirik: Slurm SRE.

İntensiv müddət ərzində biz kino biletlərinin satışı üçün toplayıcı veb-saytın qurulmasına, sındırılmasına, təmirinə və təkmilləşdirilməsinə üç gün sərf edəcəyik.

"Ümid pis strategiyadır." Moskvada SRE intensiv, 3-5 fevral

Biz bilet toplayıcısını seçdik, çünki onun bir çox uğursuz ssenariləri var: ziyarətçi axını və DDoS hücumları, bir çox kritik mikroservislərdən birinin uğursuzluğu (icazə, rezervasiyalar, ödənişlərin işlənməsi), çoxsaylı kinoteatrlardan birinin əlçatan olmaması (haqqında məlumat mübadiləsi). mövcud yerlər və rezervasiyalar) və siyahının daha aşağısında.

Mühəndislikdə daha da inkişaf etdirəcəyimiz, dizaynı SRE nöqteyi-nəzərindən təhlil edəcəyimiz, ölçüləri seçəcəyimiz, onların monitorinqini quracağımız, yaranan insidentləri aradan qaldıracağımız, insidentlərlə komanda işi üçün təlim keçirəcəyimiz aqreqator saytımız üçün Etibarlılıq konsepsiyasını formalaşdıracağıq. döyüşə yaxın şəraitdə brifinq təşkil edin.

Proqram Booking.com və Google əməkdaşları tərəfindən idarə olunur.
Bu dəfə uzaqdan iştirak olmayacaq: kurs şəxsi qarşılıqlı əlaqə və komanda işi üzərində qurulub.

Kəsmə altındakı detallar

Natiqlər

İvan Kruqlov
Booking.com-da əsas tərtibatçı (Hollandiya)
2013-cü ildə Booking.com-a qoşulduqdan sonra o, paylanmış mesajların çatdırılması və emalı, BigData və web-stack, axtarış kimi infrastruktur layihələrində çalışıb.
Hazırda daxili bulud və Service Mesh qurmaq məsələləri üzərində işləyir.

Ben Tayler
Booking.com-da əsas tərtibatçı (ABŞ)
Booking.com platformasının daxili inkişafı ilə məşğul olur.
Xidmət şəbəkəsi / xidmət kəşfi, toplu iş planı, insidentlərə cavab və ölümdən sonrakı prosesdə ixtisaslaşmışdır.
Rus dilində danışır və dərs deyir.

Evgeni Varavva
Google-da Baş Tərtibatçı (San Fransisko).
Yüksək yüklü veb layihələrindən kompüter görmə və robototexnika sahəsində araşdırmalara qədər təcrübə.
2011-ci ildən o, Google-da paylanmış sistemlərin yaradılması və istismarı ilə məşğul olur, layihənin tam həyat tsiklində iştirak edir: konseptuallaşdırma, dizayn və memarlıq, işə salma, qatlama və bütün aralıq mərhələlər.

Eduard Medvedev
Tungsten Labs-da texniki direktor (Almaniya)
Platformanın ChatOps funksionallığına cavabdeh olan StackStorm-da mühəndis kimi işləyib. Məlumat mərkəzinin avtomatlaşdırılması üçün ChatOps işlənib hazırlanmış və tətbiq edilmişdir. Rus və beynəlxalq konfranslarda məruzəçi.

Proqram

Proqram fəal şəkildə hazırlanır. İndi belə görünür, fevrala qədər yaxşılaşa və genişlənə bilər.

Mövzu №1: SRE-nin əsas prinsipləri və üsulları

  • SRE olmaq üçün nə lazımdır?
  • DevOps və SRE
  • Niyə tərtibatçılar SRE-ni qiymətləndirirlər və layihədə olmadıqda çox kədərlənirlər
  • SLI, SLO və SLA
  • Səhv büdcəsi və onun SRE-də rolu

Mövzu №2: Paylanmış sistemlərin layihələndirilməsi

  • Tətbiq arxitekturası və funksionallığı
  • Qeyri-Mücərrəd Böyük Sistem Dizaynı
  • Operativlik / Uğursuzluq üçün dizayn
  • gRPC və ya REST
  • Versiya və geriyə uyğunluq

Mövzu №3: SRE layihəsi necə qəbul edilir

  • SRE-dən ən yaxşı təcrübələr
  • Layihənin qəbuluna nəzarət siyahısı
  • Giriş, ölçülər, izləmə
  • CI/CD-ni öz əlimizə almaq

Mövzu No 4: Paylanmış sistemin layihələndirilməsi və işə salınması

  • Əks mühəndislik - sistem necə işləyir?
  • Biz SLI və SLO ilə razılaşırıq
  • Bacarıqların planlaşdırılması ilə məşğul olun
  • Tətbiqə trafiki işə salan istifadəçilərimiz ondan "istifadə etməyə" başlayırlar
  • Prometheus, Grafana, Elastik işə salınır

Mövzu №5: Monitorinq, Müşahidə oluna bilən və xəbərdarlıq

  • Monitorinq vs. Müşahidə qabiliyyəti
  • Prometheus ilə monitorinq və xəbərdarlıqların qurulması
  • SLI və SLO-nun praktiki monitorinqi
  • Simptomlar vs. Səbəblər
  • Qara qutu vs. Ağ Qutu Monitorinqi
  • Tətbiq və server mövcudluğunun paylanmış monitorinqi
  • 4 qızıl siqnal (anomaliyanın aşkarlanması)

Mövzu No 6: Sistemin etibarlılığının sınaqdan keçirilməsi təcrübəsi

  • Təzyiq altında işləmək
  • Uğursuzluq - inyeksiya
  • Xaos meymunu

Mövzu № 7: Hadisəyə reaksiya təcrübəsi

  • Stressin idarə edilməsi alqoritmi
  • Hadisə iştirakçıları arasında qarşılıqlı əlaqə
  • Ölümdən sonra
  • Bilik mübadiləsi
  • Mədəniyyətin formalaşması
  • Arızanın monitorinqi
  • Qüsursuz məlumatlandırma aparmaq

Mövzu №8: Yüklərin İdarə Edilməsi Təcrübələri

  • Yük balansı
  • Tətbiqdə nasazlığa dözümlülük: təkrar cəhd, fasilə, uğursuzluq inyeksiyası, elektrik açarı
  • DDoS (yük yaratmaq) + Kaskad uğursuzluqları

Mövzu №9: Hadisəyə Cavab

  • Debriefing
  • Zəng üzrə Təcrübə
  • Müxtəlif növ qəzalar (sınaq, konfiqurasiya dəyişiklikləri, aparat çatışmazlığı)
  • Hadisələrin idarə edilməsi protokolları

Mövzu №10: Diaqnoz və problemin həlli

  • Giriş
  • Hata düzəldilir
  • Tətbiqimizdə təhlil və sazlama işləri aparın

Mövzu №11: Sistemin etibarlılığının testi

  • Stress Testi
  • Konfiqurasiya testi
  • Performans testi
  • Kanarya sərbəst buraxıldı

Mövzu No 12: Müstəqil iş və baxış

İştirakçılar üçün tövsiyələr və tələblər

SRE komanda işidir. Komanda olaraq kursa getməyi tövsiyə edirik. Buna görə də biz hazır komandalara böyük endirimlər təklif edirik.

Kursun qiyməti bir nəfər üçün 60 ₽ təşkil edir.
Bir şirkət 5+ nəfərdən ibarət qrup göndərirsə - 40 ₽.

Kurs Kubernetes üzərində qurulub. Keçmək üçün Kubernetes-i əsas səviyyədə bilməlisiniz. Əgər onunla işləmirsinizsə, Slurm Basic-dən keçə bilərsiniz (Online və ya intensiv 18-20 noyabr).
Bundan əlavə, siz Linux-da təcrübəli olmalı və Gitlab və Prometheus-u bilməlisiniz.

qeyd

İştirak üçün kompleks ideyanız varsa, məsələn, CEO, CTO və developerlər qrupunun kursa gəlməsi və idarəetmə şaquli nəzərə alınmaqla təcrübə keçmələri üçün mənə şəxsi mesajla yazın.

Mənbə: www.habr.com

Добавить комментарий