"Upanje je slaba strategija." SRE intenziv v Moskvi od 3. do 5. februarja

Objavljamo prvi praktični tečaj SRE v Rusiji: Slurm SRE.

Med intenzivom bomo tri dni gradili, razbijali, popravljali in izboljševali agregatorsko spletno stran za prodajo vstopnic za kino.

"Upanje je slaba strategija." SRE intenziv v Moskvi od 3. do 5. februarja

Zbiralnik vstopnic smo izbrali, ker ima veliko scenarijev neuspeha: naval obiskovalcev in napadi DDoS, odpoved ene od številnih kritičnih mikrostoritev (avtorizacija, rezervacije, obdelava plačil), nedosegljivost enega od številnih kinematografov (izmenjava podatkov o prosta mesta in rezervacije) in nižje na seznamu.

Oblikovali bomo koncept Zanesljivosti za našo agregatorsko stran, ki jo bomo naprej razvijali v Inženiringu, analizirali zasnovo z vidika SRE, izbrali metrike, vzpostavili njihovo spremljanje, odpravili nastajajoče incidente, izvedli usposabljanje za timsko delo z incidenti. v razmerah, ki so blizu boju, organizirajte poročilo.

Program vodijo sodelavci Booking.com in Google.
Tokrat ne bo udeležbe na daljavo: tečaj temelji na osebni interakciji in timskem delu.

Detajli pod krojem

Spikery

Ivan Kruglov
Glavni razvijalec pri Booking.com (Nizozemska)
Odkar se je pridružil Booking.com leta 2013, je delal na infrastrukturnih projektih, kot so porazdeljena dostava in obdelava sporočil, BigData in spletni sklad, iskanje.
Trenutno se ukvarjam z izgradnjo notranjega oblaka in storitvenega omrežja.

Ben Tyler
Glavni razvijalec pri Booking.com (ZDA)
Ukvarja se z internim razvojem platforme Booking.com.
Specializiran je za storitveno mrežo/odkrivanje storitev, paketno načrtovanje opravil, odziv na incidente in postmortem proces.
Govori in poučuje v ruščini.

Evgenij Varavva
Generalni razvijalec pri Googlu (San Francisco).
Izkušnje od obremenjenih spletnih projektov do raziskav na področju računalniškega vida in robotike.
Od leta 2011 sodeluje pri ustvarjanju in delovanju porazdeljenih sistemov pri Googlu, pri čemer sodeluje v celotnem življenjskem ciklu projekta: konceptualizacija, oblikovanje in arhitektura, zagon, zlaganje in vse vmesne faze.

Eduard Medvedjev
CTO pri Tungsten Labs (Nemčija)
Delal kot inženir pri StackStorm, odgovoren za ChatOps funkcionalnost platforme. Razvit in implementiran ChatOps za avtomatizacijo podatkovnega centra. Govornik na ruskih in mednarodnih konferencah.

Program

Program se aktivno razvija. Zdaj je videti tako, do februarja se lahko izboljša in razširi.

Tema #1: Osnovna načela in metode SRE

  • Kaj je potrebno, da postanete SRE?
  • DevOps proti SRE
  • Zakaj razvijalci cenijo SRE in so zelo žalostni, ko niso v projektu
  • SLI, SLO in SLA
  • Proračun napak in njegova vloga v SRE

Tema #2: Oblikovanje porazdeljenih sistemov

  • Arhitektura in funkcionalnost aplikacije
  • Neabstraktno načrtovanje velikega sistema
  • Operativnost / Oblikovanje za napake
  • gRPC ali REST
  • Različice in združljivost za nazaj

Tema #3: Kako je sprejet projekt SRE

  • Najboljše prakse iz SRE
  • Kontrolni seznam za sprejem projekta
  • Beleženje, metrika, sledenje
  • Vzamemo CI/CD v svoje roke

Tema št. 4: Oblikovanje in zagon porazdeljenega sistema

  • Povratni inženiring – kako sistem deluje?
  • Strinjamo se za SLI in SLO
  • Vadite načrtovanje zmogljivosti
  • S sprožitvijo prometa v aplikacijo jo naši uporabniki začnejo »uporabljati«.
  • Lansiranje Prometheus, Grafana, Elastic

Tema #5: Spremljanje, opazovanje in opozarjanje

  • Spremljanje vs. Opazljivost
  • Nastavitev nadzora in alarmiranja s Prometheusom
  • Praktično spremljanje SLI in SLO
  • Simptomi vs. Vzroki
  • Črna skrinjica vs. Nadzor bele škatle
  • Porazdeljeno spremljanje razpoložljivosti aplikacij in strežnikov
  • 4 zlati signali (zaznavanje nepravilnosti)

Tema št. 6: Praksa testiranja zanesljivosti sistema

  • Delo pod pritiskom
  • Napaka-injekcija
  • Chaos Monkey

Tema #7: Praksa odzivanja na incidente

  • Algoritem za obvladovanje stresa
  • Interakcija med udeleženci incidenta
  • Posmrtno
  • Izmenjava znanja
  • Oblikovanje kulture
  • Nadzor napak
  • Izvajanje neoporečnega poročanja

Tema #8: Prakse upravljanja obremenitve

  • Izravnavanje obremenitve
  • Odpornost na napake aplikacije: ponovni poskus, časovna omejitev, vbrizgavanje napake, odklopnik
  • DDoS (ustvarjanje obremenitve) + kaskadne napake

Tema #9: Odziv na incident

  • Povzetek
  • Praksa na klic
  • Različne vrste nesreč (testiranje, spremembe konfiguracije, okvara strojne opreme)
  • Protokoli za obvladovanje incidentov

Tema #10: Diagnoza in reševanje problemov

  • Sečnja
  • Odpravljanje napak
  • Vadite analizo in odpravljanje napak v naši aplikaciji

Tema #11: Testiranje zanesljivosti sistema

  • Stresno testiranje
  • Testiranje konfiguracije
  • Testiranje delovanja
  • Kanarska izdaja

Tema št. 12: Samostojno delo in pregled

Priporočila in zahteve za udeležence

SRE je timsko delo. Močno priporočamo, da se tečaja udeležite kot ekipa. Zato nudimo velike popuste za že pripravljene ekipe.

Cena tečaja je 60 ₽ na osebo.
Če podjetje pošlje skupino 5+ ljudi - 40 ₽.

Tečaj je zgrajen na Kubernetesu. Če želite opraviti, morate poznati Kubernetes na osnovni ravni. Če ne delaš z njim, lahko greš skozi Slurm Basic (онлайн ali intenziv 18.-20).
Poleg tega morate obvladati Linux ter poznati Gitlab in Prometheus.

registracija

Če imate kompleksno idejo za udeležbo, na primer, da na tečaj pridejo CEO, CTO in ekipa razvijalcev ter da opravijo prakso ob upoštevanju vodstvene vertikale, mi pišite v osebnem sporočilu.

Vir: www.habr.com

Dodaj komentar