ProHoster > blog > administratie > “Hoop is een slechte strategie.” SRE intensief in Moskou, 3-5 februari
“Hoop is een slechte strategie.” SRE intensief in Moskou, 3-5 februari
We kondigen de eerste praktijkcursus over SRE in Rusland aan: Slurm SRE.
Tijdens de intensive gaan we drie dagen besteden aan het bouwen, afbreken, repareren en verbeteren van een aggregatorwebsite voor de verkoop van bioscoopkaartjes.
We hebben voor een ticketaggregator gekozen omdat deze veel faalscenario’s kent: een toestroom van bezoekers en DDoS-aanvallen, het uitvallen van een van de vele kritische microservices (autorisatie, reserveringen, betalingsverwerking), de onbeschikbaarheid van een van de vele bioscopen (gegevensuitwisseling over beschikbare zitplaatsen en reserveringen) en verderop in de lijst.
We zullen het concept van betrouwbaarheid formuleren voor onze aggregatorsite, die we verder zullen ontwikkelen in Engineering, het ontwerp zullen analyseren vanuit het oogpunt van SRE, statistieken zullen selecteren, hun monitoring zullen opzetten, opkomende incidenten zullen elimineren, training zullen geven voor teamwerk met incidenten organiseer een debriefing in omstandigheden die dicht bij een gevecht liggen.
Het programma wordt gerund door medewerkers van Booking.com en Google.
Deze keer is er geen deelname op afstand: de cursus is gebouwd op persoonlijke interactie en teamwerk.
Details onder de snit
икеры
Ivan Kruglov
Hoofdontwikkelaar bij Booking.com (Nederland)
Sinds hij in 2013 bij Booking.com kwam, heeft hij gewerkt aan infrastructuurprojecten zoals gedistribueerde bezorging en verwerking van berichten, BigData en web-stack, zoeken.
Momenteel bezig met problemen met het bouwen van een interne cloud en Service Mesh.
Ben Tyler
Hoofdontwikkelaar bij Booking.com (VS)
Betrokken bij de interne ontwikkeling van het Booking.com platform.
Gespecialiseerd in service mesh/service discovery, batchtaakplanning, incidentrespons en postmortemproces.
Spreekt en geeft les in het Russisch.
Jevgeni Varavva
Algemeen ontwikkelaar bij Google (San Francisco).
Ervaring met webprojecten met hoge belasting tot onderzoek op het gebied van computervisie en robotica.
Sinds 2011 is hij betrokken bij de creatie en exploitatie van gedistribueerde systemen bij Google, waarbij hij deelneemt aan de volledige levenscyclus van het project: conceptualisering, ontwerp en architectuur, lancering, vouwen en alle tussenfasen.
Eduard Medvedev
CTO bij Tungsten Labs (Duitsland)
Als engineer gewerkt bij StackStorm, verantwoordelijk voor de ChatOps functionaliteit van het platform. ChatOps ontwikkeld en geïmplementeerd voor datacenterautomatisering. Spreker op Russische en internationale conferenties.
Programma
Het programma wordt actief ontwikkeld. Nu ziet het er zo uit, tegen februari kan het verbeteren en uitbreiden.
Onderwerp #1: Basisprincipes en methoden van SRE
Wat is er nodig om een SRE te worden?
DevOps versus SRE
Waarom ontwikkelaars SRE waarderen en erg verdrietig zijn als ze niet bij het project betrokken zijn
SLI, SLO en SLA
Foutenbudget en zijn rol in SRE
Onderwerp #2: Ontwerp van gedistribueerde systemen
Applicatiearchitectuur en functionaliteit
Niet-abstract groot systeemontwerp
Bediening / Ontwerp voor falen
gRPC of REST
Versiebeheer en achterwaartse compatibiliteit
Onderwerp #3: Hoe een SRE-project wordt geaccepteerd
Best practices van SRE
Controlelijst voor projectacceptatie
Logboekregistratie, statistieken, tracering
CI/CD in eigen hand nemen
Onderwerp nr. 4: Ontwerp en lancering van een gedistribueerd systeem
Reverse engineering - hoe werkt het systeem?
Wij zijn het eens over SLI en SLO
Oefen met capaciteitsplanning
Door verkeer naar de applicatie te lanceren, beginnen onze gebruikers deze te “gebruiken”.
Lancering van Prometheus, Grafana, Elastic
Onderwerp #5: Monitoring, waarneembaarheid en alarmering
Toezicht versus Waarneembaarheid
Monitoring en alarmering instellen met Prometheus
Praktische monitoring van SLI en SLO
Symptomen versus Oorzaken
Black-Box vs. White-Box-monitoring
Gedistribueerde monitoring van de beschikbaarheid van applicaties en servers
4 gouden signalen (afwijkingsdetectie)
Onderwerp nr. 6: Praktijk voor het testen van de systeembetrouwbaarheid
Onder druk werken
Mislukking-injectie
Chaos Aap
Onderwerp #7: Praktijk voor incidentrespons
Algoritme voor stressbeheersing
Interactie tussen incidentdeelnemers
Postmortaal
Kennis delen
Het vormgeven van de cultuur
Foutbewaking
Het uitvoeren van onberispelijke debriefing
Onderwerp #8: Belastingbeheerpraktijken
Loadbalancing
Fouttolerantie van toepassing: opnieuw proberen, time-out, injectiefout, stroomonderbreker
DDoS (belasting creëren) + Cascading-fouten
Onderwerp #9: Reactie op incidenten
Nabespreking
Praktijk op afroep
Verschillende soorten ongevallen (testen, configuratiewijzigingen, hardwarestoringen)
Protocollen voor incidentbeheer
Onderwerp #10: Diagnose en probleemoplossing
Loggen
Foutopsporing
Oefen analyse en foutopsporing op onze applicatie
Onderwerp #11: Testen van systeembetrouwbaarheid
Stress testen
Configuratie testen
Prestatietests
Kanarie vrijlating
Onderwerp nr. 12: Onafhankelijk werk en recensie
Aanbevelingen en vereisten voor deelnemers
SRE is een teamprestatie. Het is sterk aan te raden om de cursus in teamverband te volgen. Daarom bieden wij grote kortingen voor kant-en-klare teams.
De prijs van de cursus is 60 ₽ per persoon.
Als een bedrijf een groep van meer dan 5 mensen stuurt - 40 ₽.
De cursus is gebouwd op Kubernetes. Om te slagen, moet je Kubernetes op basisniveau kennen. Als je niet met hem samenwerkt, kun je via Slurm Basic (онлайн of intensief 18-20 november).
Daarnaast moet je bedreven zijn in Linux en Gitlab en Prometheus kennen.
Als je een complex idee hebt voor deelname, bijvoorbeeld om de CEO, de CTO en een team van ontwikkelaars naar de cursus te laten komen, en om hen een stage te laten volgen, rekening houdend met de managementbranche, schrijf mij dan in een persoonlijk bericht.