“Nada je loša strategija.” SRE intensive u Moskvi, 3.-5. veljače

Najavljujemo prvi praktični tečaj o SRE u Rusiji: Slurm SRE.

Tijekom intenzivnog ćemo provesti tri dana u izgradnji, razbijanju, popravljanju i poboljšanju web stranice agregatora za prodaju kino ulaznica.

“Nada je loša strategija.” SRE intensive u Moskvi, 3.-5. veljače

Odabrali smo agregator karata jer ima mnogo scenarija neuspjeha: navala posjetitelja i DDoS napadi, kvar jedne od brojnih kritičnih mikroservisa (autorizacija, rezervacije, obrada plaćanja), nedostupnost jednog od mnogih kina (razmjena podataka o slobodna mjesta i rezervacije), i niže na popisu.

Formulirati ćemo koncept Pouzdanosti za našu agregatorsku stranicu, koju ćemo dalje razvijati u inženjerstvu, analizirati dizajn sa stajališta SRE-a, odabrati metrike, postaviti njihov nadzor, eliminirati novonastale incidente, provesti obuku za timski rad s incidentima u uvjetima bliskim borbenim, organizirati izvješće.

Program vode djelatnici Booking.com-a i Google-a.
Ovaj put neće biti sudjelovanja na daljinu: tečaj je izgrađen na osobnoj interakciji i timskom radu.

Detalji ispod kroja

Zvučnici

Ivan Kruglov
Glavni programer na Booking.com (Nizozemska)
Otkako se 2013. pridružio Booking.comu, radio je na infrastrukturnim projektima kao što su distribuirana dostava i obrada poruka, BigData i web-stack, pretraživanje.
Trenutno radi na pitanjima izgradnje internog oblaka i Service Mesh-a.

Ben Tyler
Glavni programer na Booking.com (SAD)
Bavi se internim razvojem Booking.com platforme.
Specijalizirao se za uslužnu mrežu/otkrivanje usluge, planiranje serijskih poslova, odgovor na incidente i postmortem proces.
Govori i predaje na ruskom jeziku.

Evgenij Varavva
Generalni programer u Googleu (San Francisco).
Iskustvo od visokoopterećenih web projekata do istraživanja računalnog vida i robotike.
Od 2011. godine uključen je u kreiranje i rad distribuiranih sustava u Googleu, sudjelujući u punom životnom ciklusu projekta: konceptualizacija, dizajn i arhitektura, lansiranje, preklapanje i sve međufaze.

Eduard Medvedev
CTO u Tungsten Labs (Njemačka)
Radio je kao inženjer u StackStormu, odgovoran za ChatOps funkcionalnost platforme. Razvijen i implementiran ChatOps za automatizaciju podatkovnog centra. Govornik na ruskim i međunarodnim skupovima.

Program

Program se aktivno razvija. Sada izgleda ovako, do veljače bi se moglo popraviti i proširiti.

Tema #1: Osnovni principi i metode SRE

  • Što je potrebno da postanete SRE?
  • DevOps vs SRE
  • Zašto programeri cijene SRE i jako su tužni kada nisu u projektu
  • SLI, SLO i SLA
  • Proračun pogreške i njegova uloga u SRE

Tema #2: Projektiranje distribuiranih sustava

  • Arhitektura i funkcionalnost aplikacije
  • Neapstraktni dizajn velikog sustava
  • Operativnost / Dizajn za kvar
  • gRPC ili REST
  • Verzija i kompatibilnost sa prethodnim verzijama

Tema #3: Kako je SRE projekt prihvaćen

  • Najbolje prakse iz SRE
  • Kontrolna lista za prihvaćanje projekta
  • Zapisivanje, metrika, praćenje
  • Uzimamo CI/CD u svoje ruke

Tema br. 4: Projektiranje i pokretanje distribuiranog sustava

  • Obrnuti inženjering - kako sustav radi?
  • Slažemo se na SLI i SLO
  • Vježbajte planiranje kapaciteta
  • Pokretanjem prometa na aplikaciju, naši korisnici je počinju "koristiti".
  • Lansiranje Prometheus, Grafana, Elastic

Tema #5: Praćenje, promatranje i uzbunjivanje

  • Praćenje vs. Uočljivost
  • Postavljanje nadzora i dojave s Prometheusom
  • Praktično praćenje SLI i SLO
  • Simptomi vs. Uzroci
  • Crna kutija vs. Praćenje bijele kutije
  • Distribuirano praćenje dostupnosti aplikacija i poslužitelja
  • 4 zlatna signala (otkrivanje anomalija)

Tema br. 6: Praksa ispitivanja pouzdanosti sustava

  • Rad pod pritiskom
  • Kvar-injekcija
  • Kaos Majmun

Tema #7: Praksa odgovora na incidente

  • Algoritam upravljanja stresom
  • Interakcija između sudionika incidenta
  • Postmortalno
  • Dijeljenje znanja
  • Oblikovanje kulture
  • Praćenje grešaka
  • Provođenje besprijekornog ispitivanja

Tema #8: Prakse upravljanja opterećenjem

  • Balansiranje opterećenja
  • Tolerancija pogreške aplikacije: ponovni pokušaj, vremensko ograničenje, ubacivanje greške, prekidač strujnog kruga
  • DDoS (stvaranje opterećenja) + kaskadne greške

Tema #9: Odgovor na incident

  • Ispitivanje
  • Praksa na poziv
  • Razne vrste nesreća (testiranje, promjene konfiguracije, kvar hardvera)
  • Protokoli za upravljanje incidentima

Tema #10: Dijagnoza i rješavanje problema

  • Sječa drva
  • Otklanjanje pogrešaka
  • Vježbajte analizu i otklanjanje pogrešaka na našoj aplikaciji

Tema #11: Ispitivanje pouzdanosti sustava

  • Testiranje otpornosti na stres
  • Testiranje konfiguracije
  • Testiranje performansi
  • Kanarsko puštanje

Tema broj 12: Samostalni rad i pregled

Preporuke i zahtjevi za sudionike

SRE je timski rad. Toplo preporučujemo pohađanje tečaja kao tim. Zato nudimo velike popuste za gotove timove.

Cijena tečaja je 60 000 ₽ po osobi.
Ako tvrtka šalje grupu od 5+ ljudi - 40 000 ₽.

Tečaj je izgrađen na Kubernetesu. Da biste položili, trebate poznavati Kubernetes na osnovnoj razini. Ako ne radite s njim, možete proći kroz Slurm Basic (онлайн ili intenziv 18.-20).
Osim toga, potrebno je vladati Linuxom i poznavati Gitlab i Prometheus.

registracija

Ako imate složenu ideju za sudjelovanje, npr. da CEO, CTO i tim programera dođu na tečaj, te da oni prođu praksu uzimajući u obzir upravljačku vertikalu, pišite mi u osobnoj poruci.

Izvor: www.habr.com

Dodajte komentar