"Hoop is 'n slegte strategie." SRE intensief in Moskou, 3-5 Februarie

Ons kondig die eerste praktiese kursus oor SRE in Rusland aan: Slurm SRE.

Gedurende die intensiewe sal ons drie dae spandeer om 'n aggregator-webwerf vir die verkoop van fliekkaartjies te bou, te breek, te herstel en te verbeter.

"Hoop is 'n slegte strategie." SRE intensief in Moskou, 3-5 Februarie

Ons het 'n kaartjie-aggregator gekies omdat dit baie mislukkingscenario's het: 'n toestroming van besoekers en DDoS-aanvalle, die mislukking van een van die vele kritieke mikrodienste (magtiging, besprekings, betalingsverwerking), die onbeskikbaarheid van een van die vele rolprentteaters (data-uitruiling oor beskikbare sitplekke en besprekings), en verder af op die lys.

Ons sal die konsep van betroubaarheid formuleer vir ons aggregator-webwerf, wat ons verder in Ingenieurswese sal ontwikkel, die ontwerp vanuit die oogpunt van SRE ontleed, statistieke kies, hul monitering opstel, ontluikende insidente uitskakel, opleiding vir spanwerk met voorvalle doen organiseer 'n ontlonting in toestande naby aan gevegte.

Die program word bestuur deur werknemers van Booking.com en Google.
Hierdie keer sal daar geen afstanddeelname wees nie: die kursus is gebou op persoonlike interaksie en spanwerk.

Besonderhede onder die snit

Luidsprekers

Ivan Kruglov
Hoofontwikkelaar by Booking.com (Nederland)
Sedert hy in 2013 by Booking.com aangesluit het, het hy aan infrastruktuurprojekte gewerk soos verspreide boodskaplewering en verwerking, BigData en web-stack, soektog.
Werk tans aan kwessies van die bou van 'n interne wolk en Service Mesh.

Ben Tyler
Hoofontwikkelaar by Booking.com (VSA)
Betrokke by interne ontwikkeling van die Booking.com-platform.
Spesialiseer in diensnetwerk / diensontdekking, bondelwerkskedulering, insidentreaksie en nadoodse ondersoekproses.
Praat en onderrig in Russies.

Evgeniy Varavva
Algemene ontwikkelaar by Google (San Francisco).
Ervaring van hoëlading webprojekte tot navorsing in rekenaarvisie en robotika.
Sedert 2011 is hy betrokke by die skepping en bedryf van verspreide stelsels by Google, en neem deel aan die volle lewensiklus van die projek: konseptualisering, ontwerp en argitektuur, bekendstelling, vou en alle intermediêre stadiums.

Eduard Medwedef
CTO by Tungsten Labs (Duitsland)
Werk as 'n ingenieur by StackStorm, verantwoordelik vir die ChatOps-funksionaliteit van die platform. Ontwikkel en geïmplementeer ChatOps vir datasentrum-outomatisering. Spreker by Russiese en internasionale konferensies.

Program

Die program word aktief ontwikkel. Nou lyk dit so, teen Februarie kan dit verbeter en uitbrei.

Onderwerp #1: Basiese beginsels en metodes van SRE

  • Wat neem dit om 'n SRE te word?
  • DevOps vs SRE
  • Waarom ontwikkelaars SRE waardeer en baie hartseer is as hulle nie in die projek is nie
  • SLI, SLO en SLA
  • Foutbegroting en sy rol in SRE

Onderwerp #2: Ontwerp van verspreide stelsels

  • Toepassingsargitektuur en -funksionaliteit
  • Nie-abstrakte groot stelselontwerp
  • Werkbaarheid / Ontwerp vir mislukking
  • gRPC of REST
  • Weergawe en terugwaartse versoenbaarheid

Onderwerp #3: Hoe 'n SRE-projek aanvaar word

  • Beste praktyke van SRE
  • Projek aanvaarding kontrolelys
  • Logging, statistieke, opsporing
  • Neem CI/CD in eie hande

Onderwerp No. 4: Ontwerp en bekendstelling van 'n verspreide stelsel

  • Omgekeerde ingenieurswese - hoe werk die stelsel?
  • Ons stem saam oor SLI en SLO
  • Oefen kapasiteitsbeplanning
  • Met die bekendstelling van verkeer na die toepassing, begin ons gebruikers dit "gebruik".
  • Bekendstelling van Prometheus, Grafana, Elastic

Onderwerp #5: Monitering, Waarneembaarheid en Waarskuwing

  • Monitering vs. Waarneembaarheid
  • Die opstel van monitering en waarskuwing met Prometheus
  • Praktiese monitering van SLI en SLO
  • Simptome vs. Oorsake
  • Black-Box vs. Witboks-monitering
  • Verspreide monitering van toepassing en bediener beskikbaarheid
  • 4 goue seine (anomalie opsporing)

Onderwerp No. 6: Praktyk van die toets van stelselbetroubaarheid

  • Werk onder druk
  • Mislukking-inspuiting
  • Chaos Aap

Onderwerp #7: Insident reaksie praktyk

  • Streshanteringsalgoritme
  • Interaksie tussen voorvaldeelnemers
  • Nadoodse ondersoek
  • Kennisdeling
  • Vorm die kultuur
  • Foutmonitering
  • Voer onberispelike ontlonting uit

Onderwerp #8: Vragbestuurspraktyke

  • Vrag balansering
  • Toepassingsfouttoleransie: herprobeer, uitteltyd, mislukkingsinspuiting, stroombreker
  • DDoS (skep vrag) + Cascading Failures

Onderwerp #9: Insidentreaksie

  • ontlonting
  • Oproep-oefening
  • Verskeie tipes ongelukke (toetsing, konfigurasieveranderings, hardeware-fout)
  • Insident bestuur protokolle

Onderwerp #10: Diagnose en probleemoplossing

  • Tekening
  • Ontfouting
  • Oefen analise en ontfouting op ons toepassing

Onderwerp #11: Stelselbetroubaarheidstoetsing

  • Strestoetsing
  • Konfigurasie toets
  • Prestasietoetsing
  • Kanariese vrylating

Onderwerp nr. 12: Onafhanklike werk en resensie

Aanbevelings en vereistes vir deelnemers

SRE is 'n spanpoging. Ons beveel sterk aan om die kursus as 'n span te neem. Daarom bied ons groot afslag vir klaargemaakte spanne.

Die prys van die kursus is 60 000 ₽ per persoon.
As 'n maatskappy 'n groep van 5+ mense stuur - 40 000 ₽.

Die kursus is gebou op Kubernetes. Om te slaag, moet jy Kubernetes op 'n basiese vlak ken. As jy nie saam met hom werk nie, kan jy deur Slurm Basic gaan (онлайн of intensief 18-20 November).
Daarbenewens moet jy vaardig wees in Linux en Gitlab en Prometheus ken.

registrasie

As jy 'n komplekse idee het vir deelname, byvoorbeeld vir die HUB, CTO en 'n span ontwikkelaars om na die kursus te kom, en vir hulle om 'n internskap te ondergaan met inagneming van die bestuursvertikale, skryf vir my in 'n persoonlike boodskap.

Bron: will.com

Voeg 'n opmerking