ProHoster > Блог > Administrado > "Espero estas malbona strategio." SRE-intensa en Moskvo, 3-5 februaro
"Espero estas malbona strategio." SRE-intensa en Moskvo, 3-5 februaro
Ni anoncas la unuan praktikan kurson pri SRE en Rusio: Slurm SRE.
Dum la intensiva ni pasigos tri tagojn konstruante, rompante, riparante kaj plibonigante agregacian retejon por vendado de filmbiletoj.
Ni elektis biletagreganton ĉar ĝi havas multajn malsukcesajn scenarojn: enfluo de vizitantoj kaj DDoS-atakoj, la fiasko de unu el la multaj kritikaj mikroservoj (rajtigo, rezervoj, pagtraktado), la malhavebleco de unu el la multaj kinejoj (datuman interŝanĝo pri disponeblaj sidlokoj kaj rezervoj), kaj pli malsupre en la listo.
Ni formulos la koncepton de Fidindeco por nia agregador-ejo, kiun ni pluevoluigos en Inĝenieristiko, analizos la dezajnon el la vidpunkto de SRE, elektos metrikojn, starigos ilian monitoradon, eliminos emerĝantajn okazaĵojn, faros trejnadon por teama laboro kun incidentoj. en kondiĉoj proksimaj al batalo, organizu debriefing.
La programo estas administrita de dungitoj de Booking.com kaj Google.
Ĉi-foje ne estos malproksima partopreno: la kurso estas konstruita sur persona interago kaj teamlaboro.
Detaloj sub la tranĉo
Parolantoj
Ivan Kruglov
Ĉefa programisto ĉe Booking.com (Nederlando)
Ekde aliĝo al Booking.com en 2013, li laboris pri infrastrukturaj projektoj kiel distribua mesaĝo livero kaj prilaborado, BigData kaj ret-stako, serĉo.
Nuntempe laboras pri aferoj pri konstruado de interna nubo kaj Service Mesh.
Ben Tyler
Ĉefa programisto ĉe Booking.com (Usono)
Engaĝita pri interna disvolviĝo de la platformo Booking.com.
Specialiĝas pri servomaŝo / serva malkovro, grupa laborplanado, incidenta respondo kaj postmorta procezo.
Parolas kaj instruas en la rusa.
Evgenij Varavva
Ĝenerala Programisto ĉe Google (San Francisco).
Sperto de altŝarĝaj retprojektoj ĝis esplorado pri komputila vizio kaj robotiko.
Ekde 2011, li estis implikita en la kreado kaj funkciado de distribuitaj sistemoj ĉe Google, partoprenante en la plena vivociklo de la projekto: konceptigo, dezajno kaj arkitekturo, lanĉo, faldado kaj ĉiuj mezaj stadioj.
Eduard Medvedev
CTO ĉe Tungsten Labs (Germanio)
Laboris kiel inĝeniero ĉe StackStorm, respondeca pri la ChatOps-funkcio de la platformo. Disvolvita kaj efektivigita ChatOps por datencentra aŭtomatigo. Parolanto ĉe rusaj kaj internaciaj konferencoj.
La programo
La programo estas aktive disvolvita. Nun ĝi aspektas tiel, antaŭ februaro ĝi eble pliboniĝos kaj plivastiĝos.
Temo #1: Bazaj principoj kaj metodoj de SRE
Kion necesas por fariĝi SRE?
DevOps kontraŭ SRE
Kial programistoj taksas SRE kaj estas tre malĝojaj kiam ili ne estas en la projekto
SLI, SLO kaj SLA
Erara buĝeto kaj ĝia rolo en SRE
Temo #2: Dezajno de distribuitaj sistemoj
Aplika arkitekturo kaj funkcieco
Ne-Abstrakta Granda Sistema Dezajno
Funkciebleco / Dezajno por fiasko
gRPC aŭ REST
Versiado kaj retrokongruo
Temo #3: Kiel SRE-projekto estas akceptita
Plej bonaj praktikoj de SRE
Kontrollisto de akcepto de projekto
Registrado, metriko, spurado
Prenante CI/KD en niajn proprajn manojn
Temo n-ro 4: Dezajno kaj lanĉo de distribuita sistemo
Inversa inĝenierado - kiel funkcias la sistemo?
Ni konsentas pri SLI kaj SLO
Praktiku kapacitan planadon
Lanĉante trafikon al la aplikaĵo, niaj uzantoj komencas "uzi" ĝin
Lanĉante Prometheus, Grafana, Elastic
Temo #5: Monitorado, Observeblo kaj Atentigo
Monitorado vs. Observeblo
Agordi monitoradon kaj atentigon kun Prometheus
Praktika monitorado de SLI kaj SLO
Simptomoj vs. Kaŭzoj
Black-Box vs. Blanka-Skatolo Monitorado
Distribuita monitorado de aplikaĵo kaj servila havebleco
4 oraj signaloj (detekto de anomalioj)
Temo n-ro 6: Praktiko de testado de sistema fidindeco
Laborante sub premo
Fiasko-injekto
Kaosa Simio
Temo n-ro 7: Praktiko pri incidento-respondo
Algoritmo pri administrado de streso
Interago inter okazaĵaj partoprenantoj
Postmortem
Kundivido de scio
Formante la kulturon
Monitorado de misfunkciadoj
Farante senriproĉan interkonsiliĝon
Temo n-ro 8: Praktikoj pri Ŝarĝo-Administrado
Ŝarĝbalancado
Toleremo al misfunkciadoj de aplikaĵo: reprovo, tempo-tempo, malsukcesa injekto, ŝaltilo
DDoS (kreado de ŝarĝo) + Kaskadaj Fiaskoj
Temo #9: Okazaĵa Respondo
Resumado
Alvoka Praktiko
Diversaj specoj de akcidentoj (testado, agordaj ŝanĝoj, aparatara fiasko)
Protokoloj pri administrado de incidentoj
Temo #10: Diagnozo kaj solvado de problemoj
Enhavo
Elpuriganta
Praktiku analizon kaj sencimigon ĉe nia aplikaĵo
Temo #11: Sistema fidindeco-testado
Streĉa Testado
Testado de agordo
Elfara testado
Kanaria liberigo
Temo n-ro 12: Sendependa laboro kaj recenzo
Rekomendoj kaj postuloj por partoprenantoj
SRE estas teama klopodo. Ni forte rekomendas preni la kurson kiel teamo. Tial ni ofertas grandajn rabatojn por pretaj teamoj.
La prezo de la kurso estas 60 ₽ por persono.
Se kompanio sendas grupon de 5+ homoj - 40 ₽.
La kurso estas konstruita sur Kubernetes. Por pasi, vi devas koni Kubernetes je baza nivelo. Se vi ne laboras kun li, vi povas trairi Slurm Basic (онлайн aŭ intensa 18-20 novembro).
Krome, vi devas esti scipova pri Linukso kaj koni Gitlab kaj Prometheus.
Se vi havas kompleksan ideon por partopreno, ekzemple, por ke la CEO, CTO kaj teamo de programistoj venu al la kurso, kaj ke ili spertu staĝon konsiderante la mastruman vertikalon, skribu al mi en persona mesaĝo.