“Nada je loša strategija.” SRE intenziv u Moskvi, 3-5 februara

Najavljujemo prvi praktični kurs o SRE u Rusiji: Slurm SRE.

Tokom intenzivnog ćemo tri dana izgraditi, razbiti, popraviti i poboljšati web stranicu agregatora za prodaju karata za kino.

“Nada je loša strategija.” SRE intenziv u Moskvi, 3-5 februara

Odabrali smo agregator ulaznica jer ima mnogo scenarija neuspjeha: priliv posjetitelja i DDoS napade, kvar jednog od mnogih kritičnih mikroservisa (autorizacija, rezervacije, obrada plaćanja), nedostupnost jednog od brojnih kina (razmjena podataka o slobodna mjesta i rezervacije) i dalje niz listu.

Formulisaćemo koncept pouzdanosti za naš agregator sajt, koji ćemo dalje razvijati u inženjeringu, analizirati dizajn sa stanovišta SRE, odabrati metriku, postaviti njihovo praćenje, eliminisati incidente u nastajanju, sprovesti obuku za timski rad sa incidentima u uslovima bliskim borbenim, organizovati debrifing.

Program vode zaposlenici Booking.com-a i Google-a.
Ovog puta neće biti učešća na daljinu: kurs je izgrađen na ličnoj interakciji i timskom radu.

Detalji ispod reza

Zvučnici

Ivan Kruglov
Glavni programer na Booking.com (Holandija)
Otkako se pridružio Booking.com-u 2013. godine, radio je na infrastrukturnim projektima kao što su distribuirana isporuka i obrada poruka, BigData i web-stack, pretraga.
Trenutno radi na pitanjima izgradnje internog oblaka i Service Mesh.

Ben Tyler
Glavni programer na Booking.com (SAD)
Angažovan na internom razvoju Booking.com platforme.
Specijaliziran je za servisnu mrežu / otkrivanje usluga, zakazivanje paketnih poslova, odgovor na incidente i postmortem proces.
Govori i predaje na ruskom.

Evgeniy Varavva
Generalni programer u Googleu (San Francisco).
Iskustvo od velikih web projekata do istraživanja kompjuterskog vida i robotike.
Od 2011. godine uključen je u kreiranje i rad distribuiranih sistema u Google-u, učestvujući u punom životnom ciklusu projekta: konceptualizacija, dizajn i arhitektura, lansiranje, sklapanje i sve međufaze.

Eduard Medvedev
CTO u Tungsten Labs (Njemačka)
Radio je kao inženjer u StackStormu, odgovoran za ChatOps funkcionalnost platforme. Razvijen i implementiran ChatOps za automatizaciju data centara. Predavač na ruskim i međunarodnim konferencijama.

Program

Program se aktivno razvija. Sada to izgleda ovako, do februara bi se moglo poboljšati i proširiti.

Tema #1: Osnovni principi i metode SRE

  • Šta je potrebno da postanete SRE?
  • DevOps vs SRE
  • Zašto programeri cijene SRE i jako su tužni kada nisu u projektu
  • SLI, SLO i SLA
  • Budžet grešaka i njegova uloga u SRE

Tema #2: Dizajn distribuiranih sistema

  • Arhitektura i funkcionalnost aplikacije
  • Neapstraktni dizajn velikog sistema
  • Operativnost / Dizajn za kvar
  • gRPC ili REST
  • Verzija i kompatibilnost unatrag

Tema #3: Kako je prihvaćen SRE projekat

  • Najbolje prakse SRE
  • Kontrolna lista prihvatanja projekta
  • Evidentiranje, metrika, praćenje
  • Uzimamo CI/CD u svoje ruke

Tema br. 4: Dizajn i pokretanje distribuiranog sistema

  • Obrnuti inženjering – kako sistem funkcioniše?
  • Slažemo se oko SLI i SLO
  • Vježbajte planiranje kapaciteta
  • Pokrećući promet na aplikaciju, naši korisnici počinju da je „koriste“.
  • Lansiranje Prometheus, Grafana, Elastic

Tema #5: Nadgledanje, uočljivost i upozorenje

  • Monitoring vs. Uočljivost
  • Postavljanje nadzora i uzbunjivanja sa Prometheusom
  • Praktično praćenje SLI i SLO
  • Simptomi vs. Uzroci
  • Black-Box vs. Praćenje bijele kutije
  • Distribuirano praćenje dostupnosti aplikacija i servera
  • 4 zlatna signala (detekcija anomalija)

Tema br. 6: Praksa ispitivanja pouzdanosti sistema

  • Rad pod pritiskom
  • Greška-injekcija
  • Chaos Monkey

Tema #7: Praksa odgovora na incidente

  • Algoritam upravljanja stresom
  • Interakcija između učesnika incidenta
  • Postmortem
  • Podjela znanja
  • Oblikovanje kulture
  • Praćenje kvarova
  • Provođenje besprijekornog debrifinga

Tema #8: Prakse upravljanja opterećenjem

  • Balansiranje opterećenja
  • Tolerancija grešaka aplikacije: ponovni pokušaj, vremensko ograničenje, ubrizgavanje greške, prekidač
  • DDoS (kreiranje opterećenja) + kaskadni kvarovi

Tema #9: Odgovor na incidente

  • Debriefing
  • Dežurna praksa
  • Razne vrste nezgoda (testiranje, promjene konfiguracije, kvar hardvera)
  • Protokoli za upravljanje incidentima

Tema #10: Dijagnoza i rješavanje problema

  • Logging
  • Otklanjanje grešaka
  • Vježbajte analizu i otklanjanje grešaka u našoj aplikaciji

Tema #11: Testiranje pouzdanosti sistema

  • Testiranje na stres
  • Testiranje konfiguracije
  • Testiranje performansi
  • Kanarsko puštanje

Tema br. 12: Samostalni rad i pregled

Preporuke i zahtjevi za učesnike

SRE je timski rad. Toplo preporučujemo da pohađate kurs kao tim. Zato nudimo velike popuste za gotove timove.

Cijena kursa je 60 ₽ po osobi.
Ako kompanija šalje grupu od 5+ ljudi - 40 ₽.

Kurs je izgrađen na Kubernetesu. Da biste prošli, morate poznavati Kubernetes na osnovnom nivou. Ako ne radite s njim, možete proći kroz Slurm Basic (онлайн ili intenzivni 18-20 novembar).
Osim toga, morate biti vješt u Linuxu i poznavati Gitlab i Prometheus.

Registrirajte se

Ako imate kompleksnu ideju za učešće, na primjer, da izvršni direktor, CTO i tim programera dođu na kurs i da oni prođu praksu uzimajući u obzir vertikalu menadžmenta, pišite mi u ličnu poruku.

izvor: www.habr.com

Dodajte komentar