„Viltis yra bloga strategija“. SRE intensyvus Maskvoje, vasario 3-5 d

Skelbiame pirmąjį praktinį SRE kursą Rusijoje: Slurm SRE.

Intensyvaus renginio metu tris dienas kursime, laužysime, remontuosime ir tobulinsime agregatorinę interneto svetainę, skirtą prekiauti kino bilietais.

„Viltis yra bloga strategija“. SRE intensyvus Maskvoje, vasario 3-5 d

Pasirinkome bilietų kaupiklį, nes jis turi daugybę nesėkmių scenarijų: lankytojų antplūdis ir DDoS atakos, vienos iš daugelio svarbių mikropaslaugų gedimas (autorizavimas, rezervavimas, mokėjimų apdorojimas), vieno iš daugelio kino teatrų nepasiekiamumas (duomenų apie laisvų vietų ir rezervacijų) ir toliau sąraše.

Suformuluosime savo agregatoriaus svetainės patikimumo koncepciją, kurią toliau plėtosime inžinerijoje, analizuosime dizainą SRE požiūriu, parinksime metrikas, nustatysime jų stebėjimą, pašalinsime kylančius incidentus, vykdysime komandinio darbo su incidentais mokymus. artimomis kovai sąlygomis surengti apibendrinimą .

Programą vykdo Booking.com ir Google darbuotojai.
Šį kartą nuotolinio dalyvavimo nebus: kursas paremtas asmeniniu bendravimu ir komandiniu darbu.

Detalės po pjūviu

Garsiakalbiai

Ivanas Kruglovas
Pagrindinis Booking.com kūrėjas (Nyderlandai)
Nuo 2013 m., kai prisijungė prie Booking.com, jis dirbo su infrastruktūros projektais, tokiais kaip paskirstytas pranešimų pristatymas ir apdorojimas, „BigData“ ir žiniatinklio rinkinys, paieška.
Šiuo metu dirbama su vidinio debesies ir paslaugų tinklo kūrimo klausimais.

Benas Taileris
Pagrindinis Booking.com kūrėjas (JAV)
Užsiima vidiniu Booking.com platformos vystymu.
Specializuojasi paslaugų tinklelio / paslaugų aptikimo, paketinio darbo planavimo, reagavimo į incidentus ir pomirtinio proceso srityse.
Kalba ir dėsto rusų kalba.

Jevgenijus Varavva
Bendrasis „Google“ kūrėjas (San Franciskas).
Patirtis nuo didelės apkrovos interneto projektų iki kompiuterinės vizijos ir robotikos tyrimų.
Nuo 2011 m. jis dalyvauja kuriant ir eksploatuojant paskirstytas sistemas Google, dalyvaujant visame projekto gyvavimo cikle: konceptualizavimo, projektavimo ir architektūros, paleidimo, lankstymo ir visuose tarpiniuose etapuose.

Eduardas Medvedevas
„Tungsten Labs“ (Vokietija) CTO
Dirbo inžinieriumi StackStorm, atsakingas už platformos ChatOps funkcionalumą. Sukurtas ir įdiegtas ChatOps duomenų centro automatizavimui. Pranešėjas Rusijos ir tarptautinėse konferencijose.

Programa

Programa aktyviai vystoma. Dabar atrodo taip, iki vasario jis gali pagerėti ir plėstis.

Tema #1: Pagrindiniai SRE principai ir metodai

  • Ko reikia norint tapti SRE?
  • DevOps vs SRE
  • Kodėl kūrėjai vertina SRE ir labai liūdi, kai jų nėra projekte
  • SLI, SLO ir SLA
  • Klaidos biudžetas ir jo vaidmuo SRE

Tema #2: Paskirstytų sistemų projektavimas

  • Programos architektūra ir funkcionalumas
  • Neabstraktus didelės sistemos dizainas
  • Veikimas / Dizainas dėl gedimo
  • grRPC arba REST
  • Versijų kūrimas ir atgalinis suderinamumas

3 tema: kaip priimamas SRE projektas

  • SRE geriausia praktika
  • Projekto priėmimo kontrolinis sąrašas
  • Registravimas, metrika, sekimas
  • CI/CD paėmimas į savo rankas

Tema Nr. 4: Paskirstytos sistemos projektavimas ir paleidimas

  • Atvirkštinė inžinerija – kaip sistema veikia?
  • Sutariame dėl SLI ir SLO
  • Praktikuokite pajėgumų planavimą
  • Pradėję srautą į programą, mūsų vartotojai pradeda ja „naudoti“.
  • Paleidžiamas Prometėjas, Grafana, Elastic

5 tema: Stebėjimas, stebėjimas ir įspėjimas

  • Stebėjimas vs. Stebimumas
  • Stebėjimo ir perspėjimo nustatymas naudojant Prometheus
  • Praktinis SLI ir SLO stebėjimas
  • Simptomai vs. Priežastys
  • Juodoji dėžė vs. Baltosios dėžės stebėjimas
  • Paskirstytas programų ir serverio prieinamumo stebėjimas
  • 4 auksiniai signalai (anomalijų aptikimas)

Tema Nr. 6: Sistemos patikimumo testavimo praktika

  • Darbas esant slėgiui
  • Gedimas-įpurškimas
  • Chaoso beždžionė

7 tema: reagavimo į incidentus praktika

  • Streso valdymo algoritmas
  • Incidento dalyvių sąveika
  • Postmortem
  • Dalinimasis žiniomis
  • Kultūros formavimas
  • Gedimų stebėjimas
  • Nepriekaištingo ataskaitų vedimas

8 tema: Krovinių valdymo praktika

  • Apkrovos balansavimas
  • Taikymo gedimų tolerancija: pakartotinis bandymas, skirtasis laikas, gedimo įpurškimas, grandinės pertraukiklis
  • DDoS (kuriant apkrovą) + pakopiniai gedimai

9 tema: Reagavimas į incidentą

  • Apklausa
  • Budėjimo praktika
  • Įvairių tipų nelaimingi atsitikimai (testavimas, konfigūracijos pakeitimai, aparatinės įrangos gedimas)
  • Incidentų valdymo protokolai

10 tema: Diagnostika ir problemų sprendimas

  • Miško ruoša
  • Derinimas
  • Praktikuokite mūsų programos analizę ir derinimą

11 tema: Sistemos patikimumo testavimas

  • Testavimas nepalankiausiomis sąlygomis
  • Konfigūracijos testavimas
  • Veikimo testavimas
  • Kanarų išleidimas

Tema Nr. 12: Savarankiškas darbas ir apžvalga

Rekomendacijos ir reikalavimai dalyviams

SRE yra komandinis darbas. Primygtinai rekomenduojame lankyti kursus komandoje. Štai kodėl mes siūlome dideles nuolaidas paruoštoms komandoms.

Kursų kaina 60 000 ₽ asmeniui.
Jei įmonė siunčia 5+ žmonių grupę – 40 000 ₽.

Kursas sukurtas Kubernetes pagrindu. Norėdami išlaikyti, turite žinoti Kubernetes pagrindiniu lygiu. Jei nedirbate su juo, galite pereiti per Slurm Basic (Dabar naršo arba intensyvus lapkričio 18-20 d).
Be to, jūs turite gerai mokėti „Linux“ ir žinoti „Gitlab“ bei „Prometheus“.

Prisiregistruoti

Jei turite sudėtingą dalyvavimo idėją, pavyzdžiui, kad generalinis direktorius, CTO ir kūrėjų komanda atvyktų į kursus ir atliktų praktiką atsižvelgiant į valdymo vertikalę, parašykite man asmenine žinute.

Šaltinis: www.habr.com

Добавить комментарий