“Hoop is een slechte strategie.” SRE intensief in Moskou, 3-5 februari

We kondigen de eerste praktijkcursus over SRE in Rusland aan: Slurm SRE.

Tijdens de intensive gaan we drie dagen besteden aan het bouwen, afbreken, repareren en verbeteren van een aggregatorwebsite voor de verkoop van bioscoopkaartjes.

“Hoop is een slechte strategie.” SRE intensief in Moskou, 3-5 februari

We hebben voor een ticketaggregator gekozen omdat deze veel faalscenario’s kent: een toestroom van bezoekers en DDoS-aanvallen, het uitvallen van een van de vele kritische microservices (autorisatie, reserveringen, betalingsverwerking), de onbeschikbaarheid van een van de vele bioscopen (gegevensuitwisseling over beschikbare zitplaatsen en reserveringen) en verderop in de lijst.

We zullen het concept van betrouwbaarheid formuleren voor onze aggregatorsite, die we verder zullen ontwikkelen in Engineering, het ontwerp zullen analyseren vanuit het oogpunt van SRE, statistieken zullen selecteren, hun monitoring zullen opzetten, opkomende incidenten zullen elimineren, training zullen geven voor teamwerk met incidenten organiseer een debriefing in omstandigheden die dicht bij een gevecht liggen.

Het programma wordt gerund door medewerkers van Booking.com en Google.
Deze keer is er geen deelname op afstand: de cursus is gebouwd op persoonlijke interactie en teamwerk.

Details onder de snit

икеры

Ivan Kruglov
Hoofdontwikkelaar bij Booking.com (Nederland)
Sinds hij in 2013 bij Booking.com kwam, heeft hij gewerkt aan infrastructuurprojecten zoals gedistribueerde bezorging en verwerking van berichten, BigData en web-stack, zoeken.
Momenteel bezig met problemen met het bouwen van een interne cloud en Service Mesh.

Ben Tyler
Hoofdontwikkelaar bij Booking.com (VS)
Betrokken bij de interne ontwikkeling van het Booking.com platform.
Gespecialiseerd in service mesh/service discovery, batchtaakplanning, incidentrespons en postmortemproces.
Spreekt en geeft les in het Russisch.

Jevgeni Varavva
Algemeen ontwikkelaar bij Google (San Francisco).
Ervaring met webprojecten met hoge belasting tot onderzoek op het gebied van computervisie en robotica.
Sinds 2011 is hij betrokken bij de creatie en exploitatie van gedistribueerde systemen bij Google, waarbij hij deelneemt aan de volledige levenscyclus van het project: conceptualisering, ontwerp en architectuur, lancering, vouwen en alle tussenfasen.

Eduard Medvedev
CTO bij Tungsten Labs (Duitsland)
Als engineer gewerkt bij StackStorm, verantwoordelijk voor de ChatOps functionaliteit van het platform. ChatOps ontwikkeld en geïmplementeerd voor datacenterautomatisering. Spreker op Russische en internationale conferenties.

Programma

Het programma wordt actief ontwikkeld. Nu ziet het er zo uit, tegen februari kan het verbeteren en uitbreiden.

Onderwerp #1: Basisprincipes en methoden van SRE

  • Wat is er nodig om een ​​SRE te worden?
  • DevOps versus SRE
  • Waarom ontwikkelaars SRE waarderen en erg verdrietig zijn als ze niet bij het project betrokken zijn
  • SLI, SLO en SLA
  • Foutenbudget en zijn rol in SRE

Onderwerp #2: Ontwerp van gedistribueerde systemen

  • Applicatiearchitectuur en functionaliteit
  • Niet-abstract groot systeemontwerp
  • Bediening / Ontwerp voor falen
  • gRPC of REST
  • Versiebeheer en achterwaartse compatibiliteit

Onderwerp #3: Hoe een SRE-project wordt geaccepteerd

  • Best practices van SRE
  • Controlelijst voor projectacceptatie
  • Logboekregistratie, statistieken, tracering
  • CI/CD in eigen hand nemen

Onderwerp nr. 4: Ontwerp en lancering van een gedistribueerd systeem

  • Reverse engineering - hoe werkt het systeem?
  • Wij zijn het eens over SLI en SLO
  • Oefen met capaciteitsplanning
  • Door verkeer naar de applicatie te lanceren, beginnen onze gebruikers deze te “gebruiken”.
  • Lancering van Prometheus, Grafana, Elastic

Onderwerp #5: Monitoring, waarneembaarheid en alarmering

  • Toezicht versus Waarneembaarheid
  • Monitoring en alarmering instellen met Prometheus
  • Praktische monitoring van SLI en SLO
  • Symptomen versus Oorzaken
  • Black-Box vs. White-Box-monitoring
  • Gedistribueerde monitoring van de beschikbaarheid van applicaties en servers
  • 4 gouden signalen (afwijkingsdetectie)

Onderwerp nr. 6: Praktijk voor het testen van de systeembetrouwbaarheid

  • Onder druk werken
  • Mislukking-injectie
  • Chaos Aap

Onderwerp #7: Praktijk voor incidentrespons

  • Algoritme voor stressbeheersing
  • Interactie tussen incidentdeelnemers
  • Postmortaal
  • Kennis delen
  • Het vormgeven van de cultuur
  • Foutbewaking
  • Het uitvoeren van onberispelijke debriefing

Onderwerp #8: Belastingbeheerpraktijken

  • Loadbalancing
  • Fouttolerantie van toepassing: opnieuw proberen, time-out, injectiefout, stroomonderbreker
  • DDoS (belasting creëren) + Cascading-fouten

Onderwerp #9: Reactie op incidenten

  • Nabespreking
  • Praktijk op afroep
  • Verschillende soorten ongevallen (testen, configuratiewijzigingen, hardwarestoringen)
  • Protocollen voor incidentbeheer

Onderwerp #10: Diagnose en probleemoplossing

  • Loggen
  • Foutopsporing
  • Oefen analyse en foutopsporing op onze applicatie

Onderwerp #11: Testen van systeembetrouwbaarheid

  • Stress testen
  • Configuratie testen
  • Prestatietests
  • Kanarie vrijlating

Onderwerp nr. 12: Onafhankelijk werk en recensie

Aanbevelingen en vereisten voor deelnemers

SRE is een teamprestatie. Het is sterk aan te raden om de cursus in teamverband te volgen. Daarom bieden wij grote kortingen voor kant-en-klare teams.

De prijs van de cursus is 60 ₽ per persoon.
Als een bedrijf een groep van meer dan 5 mensen stuurt - 40 ₽.

De cursus is gebouwd op Kubernetes. Om te slagen, moet je Kubernetes op basisniveau kennen. Als je niet met hem samenwerkt, kun je via Slurm Basic (онлайн of intensief 18-20 november).
Daarnaast moet je bedreven zijn in Linux en Gitlab en Prometheus kennen.

registratie

Als je een complex idee hebt voor deelname, bijvoorbeeld om de CEO, de CTO en een team van ontwikkelaars naar de cursus te laten komen, en om hen een stage te laten volgen, rekening houdend met de managementbranche, schrijf mij dan in een persoonlijk bericht.

Bron: www.habr.com

Voeg een reactie