"Hoop is in minne strategy." SRE yntinsyf yn Moskou, 3-5 febrewaris

Wy kundigje de earste praktyske kursus oer SRE yn Ruslân oan: Slurm SRE.

Tidens de yntinsive sille wy trije dagen besteegje oan it bouwen, brekken, reparearjen en ferbetterjen fan in aggregatorwebside foar it ferkeapjen fan filmkaarten.

"Hoop is in minne strategy." SRE yntinsyf yn Moskou, 3-5 febrewaris

Wy hawwe keazen foar in ticketaggregator om't it in protte mislearre senario's hat: in ynstream fan besikers en DDoS-oanfallen, it mislearjen fan ien fan 'e protte krityske mikrotsjinsten (autorisaasje, reservearrings, betellingsferwurking), de net beskikberens fan ien fan 'e protte bioskopen (gegevens-útwikseling oer beskikbere sitten en reservearrings), en fierder op 'e list.

Wy sille it konsept fan betrouberens formulearje foar ús aggregatorside, dy't wy fierder sille ûntwikkelje yn Engineering, it ûntwerp analysearje út it eachpunt fan SRE, metriken selektearje, har tafersjoch ynstelle, opkommende ynsidinten eliminearje, training útfiere foar teamwurk mei ynsidinten organisearje in debriefing yn omstannichheden tichtby bestriding.

It programma wurdt útfierd troch meiwurkers fan Booking.com en Google.
Dizze kear sil der gjin dielname op ôfstân wêze: de kursus is boud op persoanlike ynteraksje en teamwurk.

Details ûnder de besuniging

Sprekkers

Ivan Kruglov
Principal Developer at Booking.com (Nederlân)
Sûnt hy kaam by Booking.com yn 2013, hat hy wurke oan ynfrastruktuerprojekten lykas ferspraat berjochtlevering en ferwurking, BigData en web-stack, sykjen.
Op it stuit wurkje oan problemen fan it bouwen fan in ynterne wolk en Service Mesh.

Ben Tyler
Principal Developer at Booking.com (USA)
Dwaande mei ynterne ûntwikkeling fan it Booking.com-platfoarm.
Spesjalisearret yn tsjinst mesh / tsjinst ûntdekking, batch job scheduling, ynsidint antwurd en postmortem proses.
Sprekt en leart yn it Russysk.

Evgeniy Varavva
Algemiene ûntwikkelder by Google (San Francisco).
Underfining fan webprojekten mei hege lading oant ûndersyk yn kompjûterfisy en robotika.
Sûnt 2011 is hy belutsen by de skepping en eksploitaasje fan ferdielde systemen by Google, meidwaan oan 'e folsleine libbenssyklus fan it projekt: konseptualisaasje, ûntwerp en arsjitektuer, lansearring, foldjen en alle tuskenstadia.

Eduard Medvedev
CTO at Tungsten Labs (Dútslân)
Hat wurke as yngenieur by StackStorm, ferantwurdlik foar de ChatOps-funksjonaliteit fan it platfoarm. Untwikkele en ymplementearre ChatOps foar automatisearring fan datacenters. Sprekker op Russyske en ynternasjonale konferinsjes.

It programma

It programma wurdt aktyf ûntwikkele. No liket it sa, yn febrewaris kin it ferbetterje en útwreidzje.

Underwerp #1: Basisprinsipes en metoaden fan SRE

  • Wat kostet it om in SRE te wurden?
  • DevOps vs SRE
  • Wêrom ûntwikkelders wurdearje SRE en binne tige tryst as se net yn it projekt
  • SLI, SLO en SLA
  • Flater budzjet en syn rol yn SRE

Underwerp #2: Untwerp fan ferspraat systemen

  • Applikaasje arsjitektuer en funksjonaliteit
  • Non-Abstract Large System Design
  • Operabiliteit / Untwerp foar mislearring
  • gRPC of REST
  • Ferzje en efterkompatibiliteit

Underwerp #3: Hoe in SRE-projekt wurdt akseptearre

  • Bêste praktiken fan SRE
  • Projekt akseptaasje checklist
  • Logging, metriken, tracing
  • CI/CD yn eigen hannen nimme

Underwerp No.. 4: Untwerp en lansearring fan in ferspraat systeem

  • Reverse engineering - hoe wurket it systeem?
  • Wy iens op SLI en SLO
  • Oefenje kapasiteitsplanning
  • Troch ferkear nei de applikaasje te starten, begjinne ús brûkers it te "brûken".
  • Launching Prometheus, Grafana, Elastic

Underwerp #5: Monitoring, waarnimmberens en warskôging

  • Monitoring vs. Observabiliteit
  • It ynstellen fan tafersjoch en warskôging mei Prometheus
  • Praktyske tafersjoch fan SLI en SLO
  • Symptomen vs. Oarsaken
  • Black-Box vs. White-Box Monitoring
  • Ferspraat tafersjoch op applikaasje en tsjinner beskikberens
  • 4 gouden sinjalen (deteksje fan anomaly)

Underwerp No.. 6: Oefenjen fan testen systeem betrouberens

  • Wurkje ûnder druk
  • Failure-ynjeksje
  • Chaos Monkey

Underwerp #7: Praktyk foar antwurd op ynsidint

  • Stress management algoritme
  • Ynteraksje tusken ynsidint dielnimmers
  • Postmortem
  • Kennis dielen
  • It foarmjen fan de kultuer
  • Fault monitoring
  • It útfieren fan blameless debriefing

Underwerp # 8: Praktyk foar loadbehear

  • Load balancing
  • Applikaasjefouttolerânsje: opnij besykjen, time-out, mislearring ynjeksje, circuit breaker
  • DDoS (laad oanmeitsje) + Cascading Failures

Underwerp # 9: Incident Response

  • Debriefing
  • On-Call Praktyk
  • Ferskate soarten ûngemakken (testen, konfiguraasjewizigingen, hardwarefout)
  • Ynsidint behear protokollen

Underwerp #10: Diagnoaze en probleemoplossing

  • Logging
  • Debuggen
  • Oefenje analyse en debuggen op ús applikaasje

Underwerp #11: Systeembetrouwenstests

  • Stress Testing
  • Konfiguraasje testen
  • Prestaasje testen
  • Kanaryske frijlitting

Underwerp No.. 12: Unôfhinklik wurk en resinsje

Oanbefellings en easken foar dielnimmers

SRE is in team ynspannings. Wy riede sterk oan om de kursus as team te nimmen. Dêrom biede wy grutte koartingen foar klearmakke teams.

De priis fan 'e kursus is 60 ₽ per persoan.
As in bedriuw in groep fan 5+ minsken stjoert - 40 ₽.

De kursus is boud op Kubernetes. Om troch te gean, moatte jo Kubernetes op in basisnivo kenne. As jo ​​​​net mei him wurkje, kinne jo troch Slurm Basic gean (online of yntinsive 18-20 novimber).
Dêrneist moatte jo bekwaam wêze yn Linux en kenne Gitlab en Prometheus.

registraasje

As jo ​​in kompleks idee foar dielname, bygelyks, foar de CEO, CTO en in team fan ûntwikkelders te kommen ta de kursus, en foar harren te ûndergean in staazje mei rekken hâldend mei it behear fertikale, skriuw my yn in persoanlik berjocht.

Boarne: www.habr.com

Add a comment