"Espero estas malbona strategio." SRE-intensa en Moskvo, 3-5 februaro

Ni anoncas la unuan praktikan kurson pri SRE en Rusio: Slurm SRE.

Dum la intensiva ni pasigos tri tagojn konstruante, rompante, riparante kaj plibonigante agregacian retejon por vendado de filmbiletoj.

"Espero estas malbona strategio." SRE-intensa en Moskvo, 3-5 februaro

Ni elektis biletagreganton ĉar ĝi havas multajn malsukcesajn scenarojn: enfluo de vizitantoj kaj DDoS-atakoj, la fiasko de unu el la multaj kritikaj mikroservoj (rajtigo, rezervoj, pagtraktado), la malhavebleco de unu el la multaj kinejoj (datuman interŝanĝo pri disponeblaj sidlokoj kaj rezervoj), kaj pli malsupre en la listo.

Ni formulos la koncepton de Fidindeco por nia agregador-ejo, kiun ni pluevoluigos en Inĝenieristiko, analizos la dezajnon el la vidpunkto de SRE, elektos metrikojn, starigos ilian monitoradon, eliminos emerĝantajn okazaĵojn, faros trejnadon por teama laboro kun incidentoj. en kondiĉoj proksimaj al batalo, organizu debriefing.

La programo estas administrita de dungitoj de Booking.com kaj Google.
Ĉi-foje ne estos malproksima partopreno: la kurso estas konstruita sur persona interago kaj teamlaboro.

Detaloj sub la tranĉo

Parolantoj

Ivan Kruglov
Ĉefa programisto ĉe Booking.com (Nederlando)
Ekde aliĝo al Booking.com en 2013, li laboris pri infrastrukturaj projektoj kiel distribua mesaĝo livero kaj prilaborado, BigData kaj ret-stako, serĉo.
Nuntempe laboras pri aferoj pri konstruado de interna nubo kaj Service Mesh.

Ben Tyler
Ĉefa programisto ĉe Booking.com (Usono)
Engaĝita pri interna disvolviĝo de la platformo Booking.com.
Specialiĝas pri servomaŝo / serva malkovro, grupa laborplanado, incidenta respondo kaj postmorta procezo.
Parolas kaj instruas en la rusa.

Evgenij Varavva
Ĝenerala Programisto ĉe Google (San Francisco).
Sperto de altŝarĝaj retprojektoj ĝis esplorado pri komputila vizio kaj robotiko.
Ekde 2011, li estis implikita en la kreado kaj funkciado de distribuitaj sistemoj ĉe Google, partoprenante en la plena vivociklo de la projekto: konceptigo, dezajno kaj arkitekturo, lanĉo, faldado kaj ĉiuj mezaj stadioj.

Eduard Medvedev
CTO ĉe Tungsten Labs (Germanio)
Laboris kiel inĝeniero ĉe StackStorm, respondeca pri la ChatOps-funkcio de la platformo. Disvolvita kaj efektivigita ChatOps por datencentra aŭtomatigo. Parolanto ĉe rusaj kaj internaciaj konferencoj.

La programo

La programo estas aktive disvolvita. Nun ĝi aspektas tiel, antaŭ februaro ĝi eble pliboniĝos kaj plivastiĝos.

Temo #1: Bazaj principoj kaj metodoj de SRE

  • Kion necesas por fariĝi SRE?
  • DevOps kontraŭ SRE
  • Kial programistoj taksas SRE kaj estas tre malĝojaj kiam ili ne estas en la projekto
  • SLI, SLO kaj SLA
  • Erara buĝeto kaj ĝia rolo en SRE

Temo #2: Dezajno de distribuitaj sistemoj

  • Aplika arkitekturo kaj funkcieco
  • Ne-Abstrakta Granda Sistema Dezajno
  • Funkciebleco / Dezajno por fiasko
  • gRPC aŭ REST
  • Versiado kaj retrokongruo

Temo #3: Kiel SRE-projekto estas akceptita

  • Plej bonaj praktikoj de SRE
  • Kontrollisto de akcepto de projekto
  • Registrado, metriko, spurado
  • Prenante CI/KD en niajn proprajn manojn

Temo n-ro 4: Dezajno kaj lanĉo de distribuita sistemo

  • Inversa inĝenierado - kiel funkcias la sistemo?
  • Ni konsentas pri SLI kaj SLO
  • Praktiku kapacitan planadon
  • Lanĉante trafikon al la aplikaĵo, niaj uzantoj komencas "uzi" ĝin
  • Lanĉante Prometheus, Grafana, Elastic

Temo #5: Monitorado, Observeblo kaj Atentigo

  • Monitorado vs. Observeblo
  • Agordi monitoradon kaj atentigon kun Prometheus
  • Praktika monitorado de SLI kaj SLO
  • Simptomoj vs. Kaŭzoj
  • Black-Box vs. Blanka-Skatolo Monitorado
  • Distribuita monitorado de aplikaĵo kaj servila havebleco
  • 4 oraj signaloj (detekto de anomalioj)

Temo n-ro 6: Praktiko de testado de sistema fidindeco

  • Laborante sub premo
  • Fiasko-injekto
  • Kaosa Simio

Temo n-ro 7: Praktiko pri incidento-respondo

  • Algoritmo pri administrado de streso
  • Interago inter okazaĵaj partoprenantoj
  • Postmortem
  • Kundivido de scio
  • Formante la kulturon
  • Monitorado de misfunkciadoj
  • Farante senriproĉan interkonsiliĝon

Temo n-ro 8: Praktikoj pri Ŝarĝo-Administrado

  • Ŝarĝbalancado
  • Toleremo al misfunkciadoj de aplikaĵo: reprovo, tempo-tempo, malsukcesa injekto, ŝaltilo
  • DDoS (kreado de ŝarĝo) + Kaskadaj Fiaskoj

Temo #9: Okazaĵa Respondo

  • Resumado
  • Alvoka Praktiko
  • Diversaj specoj de akcidentoj (testado, agordaj ŝanĝoj, aparatara fiasko)
  • Protokoloj pri administrado de incidentoj

Temo #10: Diagnozo kaj solvado de problemoj

  • Enhavo
  • Elpuriganta
  • Praktiku analizon kaj sencimigon ĉe nia aplikaĵo

Temo #11: Sistema fidindeco-testado

  • Streĉa Testado
  • Testado de agordo
  • Elfara testado
  • Kanaria liberigo

Temo n-ro 12: Sendependa laboro kaj recenzo

Rekomendoj kaj postuloj por partoprenantoj

SRE estas teama klopodo. Ni forte rekomendas preni la kurson kiel teamo. Tial ni ofertas grandajn rabatojn por pretaj teamoj.

La prezo de la kurso estas 60 ₽ por persono.
Se kompanio sendas grupon de 5+ homoj - 40 ₽.

La kurso estas konstruita sur Kubernetes. Por pasi, vi devas koni Kubernetes je baza nivelo. Se vi ne laboras kun li, vi povas trairi Slurm Basic (онлайнintensa 18-20 novembro).
Krome, vi devas esti scipova pri Linukso kaj koni Gitlab kaj Prometheus.

registriĝo

Se vi havas kompleksan ideon por partopreno, ekzemple, por ke la CEO, CTO kaj teamo de programistoj venu al la kurso, kaj ke ili spertu staĝon konsiderante la mastruman vertikalon, skribu al mi en persona mesaĝo.

fonto: www.habr.com

Aldoni komenton