Slurm SRE. Een compleet experiment met experts van Booking.com en Google.com

Ons team houdt van experimenteren. Elke Slurm is geen statische herhaling van de voorgaande, maar een reflectie op de ervaring en een overgang van goed naar beter. Maar met Slurm SRE we besloten een compleet nieuw format toe te passen - om de deelnemers voorwaarden te geven die zo dicht mogelijk bij "gevecht" liggen.

Als we kort schetsen wat we tijdens de intensieve cursus hebben gedaan: “We bouwen, we breken, we repareren,
wij zijn aan het leren." SRE is louter in theorie weinig waard - alleen de praktijk, echte oplossingen, echte problemen.

De deelnemers werden in teams verdeeld, zodat niemand door een krachtige competitieve geest in slaap zou vallen of "Angry Birds" op de iPhone zou lanceren, naar het voorbeeld van Dmitry Anatolyevich.

Problemen, glitches, bugs en taken werden door vier mentoren aan de deelnemers verstrekt. Ivan Kruglov, hoofdontwikkelaar bij Booking.com (Nederland). Ben Tyler, hoofdontwikkelaar bij Booking.com (VS). Eduard Medvedev, CTO bij Tungsten Labs (Duitsland). Evgeniy Varavva, algemeen ontwikkelaar bij Google (San Francisco).

Bovendien worden de deelnemers in teams verdeeld en strijden ze tegen elkaar. Interessant?

Slurm SRE. Een compleet experiment met experts van Booking.com en Google.com
Ivan, Ben, Eduard en Evgeniy kijken voor aanvang van de wedstrijd met vriendelijke leninistische blikken naar de arme Slurm SRE-deelnemers.

Dus de taak:

Wij zijn van ons, we zullen een nieuwe wereld bouwen...

Er is een website voor het verzamelen van bioscoopkaartjes. Incidenten worden door mentoren bedacht in een vooraf uitgewerkt scenario (hoewel niemand bijzonder geavanceerde en verraderlijke improvisatie uitsluit), de prestaties van de site worden beschreven aan de hand van verschillende statistieken. De problemen kunnen heel verschillend zijn: kaartjes voor het Moulin Rouge-theater worden niet in de database geladen; posters van films en optredens worden in ruim 10 seconden in de database geladen; de beschrijving van een individuele film loopt vast; 0,1% van de bestellingen is al gereserveerd; Van tijd tot tijd crasht het betalingsverwerkingssysteem gedurende een minuut of twee. En heel veel onaangename dingen die een Slurm SRE-deelnemer in zijn echte baan kunnen overkomen.

Slurm SRE. Een compleet experiment met experts van Booking.com en Google.com
Wij zijn klaar voor alles... en iedereen.

Onze lankmoedige website bestaat uit verschillende microservices. Het heeft tot taak gegevens te verzamelen over shows, prijzen en beschikbare zitplaatsen van alle bioscopen; het toont filmaankondigingen, stelt u in staat een bioscoop, show, zaal en plaats te selecteren, kaartjes te boeken en te betalen. Over het algemeen alles waar de kijker alleen maar van kan dromen. Maar de gebruiker vermoedt niet eens wat voor een titanenstrijd om de stabiliteit en toegankelijkheid van de site zich binnen afspeelt.

Voor de intensieve site hebben we SLO-, SLI- en SLA-indicatoren gegenereerd, architectuur en infrastructuur ontwikkeld, de site uitgerold, monitoring en alerting opgezet. En daar gaan we.

SLO, SLI, SLA

SLI - serviceniveau-indicatoren. SLO's zijn serviceniveaudoelen. SLA - Service Level Agreements.

SLA is een ITIL-methodologieterm die een formele overeenkomst aanduidt tussen de klant van een dienst en zijn leverancier, met daarin een beschrijving van de dienst, de rechten en plichten van de partijen en, belangrijker nog, het overeengekomen kwaliteitsniveau voor de levering ervan. dienst.

Een SLO is een serviceniveaudoelstelling: een streefwaarde of bereik van waarden voor een serviceniveau dat wordt gemeten door de SLI. Een normale waarde voor SLO is “SLI ≤ Doel” of “Ondergrens ≤ SLI ≤ Bovengrens”.

De SLI is een serviceniveau-indicator: een zorgvuldig gedefinieerde kwantitatieve maatstaf voor één aspect van het geleverde serviceniveau. Voor de meeste services wordt de belangrijkste SLI beschouwd als de latentie van verzoeken: hoe lang het duurt om een ​​antwoord op een verzoek te retourneren. Andere veel voorkomende SLI's zijn het foutenpercentage, vaak uitgedrukt als een fractie van alle ontvangen verzoeken, en de systeemdoorvoer, meestal gemeten in verzoeken per seconde.

Allereerst zullen we de vliegtuigen kapot maken, en dan de meisjes, en dan de meisjes...

Interne en externe factoren begonnen SLO vanaf de eerste minuten te ‘bederven’. Alles viel op de hoofden van de beheerders: fouten van ontwikkelaars, storingen in de infrastructuur, een toestroom van bezoekers en DDoS-aanvallen. Alles wat SLO verergert.

Slurm SRE. Een compleet experiment met experts van Booking.com en Google.com
“- Beste deelnemers, ik haast me om jullie een plezier te doen, het eerste wat jullie niet lukt is... alles!”

Onderweg bespraken de sprekers stabiliteit, foutenbudget, testpraktijk, beheer van onderbrekingen en operationele belasting.

Wij zijn geen stokers, geen timmerlieden...

Toen begonnen de deelnemers dingen te repareren - het belangrijkste is om te begrijpen wat ze eerst moesten pakken.

Slurm SRE. Een compleet experiment met experts van Booking.com en Google.com
"- Heer, ik heb het nog nooit zo zien breken, in deze vorm en in zo'n positie!"

Er vond dus een ongeluk plaats. De betalingsverwerkingsservice is offline. Hoe te handelen om de functionaliteit in de kortst mogelijke tijd te herstellen?

Slurm SRE. Een compleet experiment met experts van Booking.com en Google.com
De experts, die liefdevol naar de deelnemers kijken, bereiden een nieuwe truc voor.

Elk team organiseert het werk van de groep om het ongeval te elimineren - betrekt collega's, informeert geïnteresseerde partijen (stakeholders). Tegelijkertijd worden prioriteiten gesteld. Op deze manier trainden de deelnemers om onder zeer beperkte tijdsomstandigheden onder druk te werken.

Slurm SRE. Een compleet experiment met experts van Booking.com en Google.com
“Wat voor horror is er uitgekomen?!”

Adem uit... en voltooi de oefening

Nadat elk probleem was opgelost en de locatie tijdelijk was gestabiliseerd, bestudeerde het team samen met de sprekers de incidenten vanuit SRE-oogpunt. We hebben de problemen in detail geanalyseerd: de oorzaken van het optreden, de voortgang van de eliminatie. Daarna hebben we, zowel team voor team als collectief, beslissingen genomen over hoe we deze verder kunnen voorkomen: hoe we de monitoring kunnen verbeteren, hoe we de architectuur verstandig kunnen veranderen, hoe we de aanpak van ontwikkeling en exploitatie kunnen aanpassen, hoe we de regelgeving kunnen corrigeren. De sprekers demonstreerden de praktijk van het uitvoeren van postmortem.

Slurm SRE. Een compleet experiment met experts van Booking.com en Google.com
“Wie wil er nog meer kwelling! - I!"

De successen van de teams werden strikt en duidelijk vastgelegd op het elektronische scorebord.

Slurm SRE. Een compleet experiment met experts van Booking.com en Google.com

Voor eerste plaatsen - een bonus van belanghebbenden.

Slurm SRE. Een compleet experiment met experts van Booking.com en Google.com

Bron: www.habr.com

Voeg een reactie