Schlof SRE. E komplette Experiment mat Experten vu Booking.com a Google.com

Eis Equipe gär Experimenter. All Slurm ass keng statesch Widderhuelung vun deene virdrun, mee eng Reflexioun iwwer d'Erfahrung an en Iwwergang vu Gutt op Besser. Mee mat Schlof SRE Mir hu beschloss, e komplett neit Format ze gëllen - fir d'Participanten sou no wéi méiglech Konditiounen ze ginn "Kampf".

Wa mir kuerz beschreift wat mir am Intensivkurs gemaach hunn: "Mir bauen, mir briechen, mir reparéieren,
mir studéieren." SRE ass wéineg wäert an der Theorie - nëmmen Praxis, richteg Léisungen, richteg Probleemer.

D'Participanten goufen an Équipen opgedeelt, sou datt e kräftege Konkurrenzgeescht kee géif erlaben datt jiddereen schlofen oder "Angry Birds" um iPhone lancéiert, nom Beispill vum Dmitry Anatolyevich.

Problemer, Glitches, Bugs an Aufgaben goufen de Participanten vu véier Mentoren geliwwert. Ivan Kruglov, Haaptentwéckler bei Booking.com (Holland). Ben Tyler, Haaptentwéckler bei Booking.com (USA). Eduard Medvedev, CTO bei Tungsten Labs (Däitschland). Evgeniy Varavva, allgemeng Entwéckler bei Google (San Francisco).

Ausserdeem ginn d'Participanten an Teams opgedeelt a konkurréiere mateneen. Interessant?

Schlof SRE. E komplette Experiment mat Experten vu Booking.com a Google.com
Den Ivan, Ben, Eduard an Evgeniy kucken op déi aarm Slurm SRE Participanten mat frëndleche leninistesche Squints virum Start vum Concours.

Also d'Aufgab:

Mir sinn eis, mir bauen eng nei Welt ...

Et gëtt e Film Ticket aggregator Websäit. Tëschefäll gi vu Mentoren an engem virgeschafftenen Szenario erfonnt (obwuel keen besonnesch raffinéiert an onheemlech Improvisatioun ausschléisst), gëtt d'Performance vum Site duerch verschidde Metriken beschriwwen. D'Problemer kënne ganz ënnerschiddlech sinn: Tickete fir de Moulin Rouge Theater ginn net an d'Datebank gelueden; Plakater vu Filmer a Performancen ginn an d'Datebank a méi wéi 10 Sekonnen gelueden; d'Beschreiwung vun engem eenzelne Film afréiert; 0,1% vun Bestellungen sinn scho reservéiert; Vun Zäit zu Zäit klappt de Bezuelveraarbechtungssystem fir eng Minutt oder zwou. A vill, vill, vill onsympathesch Saachen, déi e Slurm SRE Participant bei senger richteger Aarbecht befalle kënnen.

Schlof SRE. E komplette Experiment mat Experten vu Booking.com a Google.com
Mir si prett alles ze handhaben ... a jiddereen.

Eis laang-Leed Websäit besteet aus verschiddene Mikroservicer. Seng Aufgab ass d'Donnéeën iwwer Shows, Präisser a verfügbare Sëtzer vun alle Kinoen ze aggregéieren; et weist Filmerkënnegungen, erlaabt Iech e Kino, Show, Hal a Plaz ze wielen, Ticketen ze buchen a bezuelen. Am Allgemengen, alles wat den Zuschauer nëmmen dreeme kann. Awer de Benotzer verdächtegt net emol wat e Titanesche Kampf fir d'Stabilitéit an d'Accessibilitéit vum Site dobannen leeft.

Fir den intensiven Site hu mir SLO, SLI, SLA Indikatoren generéiert, Architektur an Infrastruktur entwéckelt, de Site ofgebaut, Iwwerwaachung an Alarm opgestallt. A mir ginn ewech.

SLO, SLI, SLA

SLI - Service Niveau Indicateuren. SLOs si Serviceniveau Ziler. SLA - Service Niveau Accorden.

SLA ass en ITIL Methodik Begrëff deen e formellen Accord tëscht dem Client vun engem Service a sengem Fournisseur bezeechent, enthält eng Beschreiwung vum Service, d'Rechter a Pflichten vun de Parteien an, am wichtegsten, den ausgemaachte Qualitéitsniveau fir d'Versuergung vun dësem Service.

En SLO ass e Serviceniveau Zil: en Zilwäert oder Gamme vu Wäerter fir e Serviceniveau dee vum SLI gemooss gëtt. En normale Wäert fir SLO ass "SLI ≤ Target" oder "Lower Limit ≤ SLI ≤ Upper Limit".

De SLI ass e Serviceniveau Indikator - eng suergfälteg definéiert quantitativ Moossnam vun engem Aspekt vum Niveau vum Service. Fir déi meescht Servicer gëtt de Schlëssel SLI als Ufrolatenz ugesinn - wéi laang et dauert fir eng Äntwert op eng Ufro zréckzekommen. Aner gemeinsam SLIs och Feeler Taux, oft ausgedréckt als Ëmwandlung vun all Demanden kritt, a System Duerchgang, normalerweis an Demanden pro Sekonn gemooss.

Als éischt wäerte mir d'Fligeren briechen, an dann d'Meedercher, an dann d'Meedercher ...

Intern an extern Faktoren hunn ugefaang SLO vun den éischte Minutten ze "verdéngen". Alles ass op de Kapp vun den Administrateuren gefall - Entwécklerfehler, Infrastrukturfehler, en Flux vu Besucher an DDoS Attacken. Alles wat SLO verschlechtert.

Schlof SRE. E komplette Experiment mat Experten vu Booking.com a Google.com
"- Léif Participanten, ech maache séier fir Iech ze gefalen, dat éischt wat Dir versoen ass ... alles!"

Ënnerwee hunn d'Spriecher iwwer Stabilitéit, Feelerbudget, Testpraxis, Gestioun vun Ënnerbriechungen an operationell Belaaschtung diskutéiert.

Mir si keng Stokker, keng Schräiner ...

Dunn hunn d'Participanten ugefaang Saachen ze fixéieren - den Haapt Saach ass ze verstoen wat fir d'éischt ze gräifen.

Schlof SRE. E komplette Experiment mat Experten vu Booking.com a Google.com
"- Här, ech hunn et nach ni gesinn briechen esou, an dëser Form an an esou enger Positioun!"

Also ass en Accident geschitt. De Bezuelungsveraarbechtungsservice ass erof. Wéi handelen fir d'Funktionalitéit a kuerzer Zäit ze restauréieren?

Schlof SRE. E komplette Experiment mat Experten vu Booking.com a Google.com
D'Experten, déi häerzlech op d'Participanten kucken, preparéieren en aneren Trick.

All Team organiséiert d'Aarbecht vum Grupp fir den Accident z'eliminéieren - involvéiert Kollegen, informéiert interesséiert Parteien (Akteuren). Gläichzäiteg gi Prioritéite gesat. Op dës Manéier hunn d'Participanten trainéiert fir ënner Drock ënner extrem begrenzten Zäitbedéngungen ze schaffen.

Schlof SRE. E komplette Experiment mat Experten vu Booking.com a Google.com
"Wat fir eng Horror ass erauskomm?!"

Ausatmen ... a fäerdeg d'Übung

Zesumme mat de Spriecher, nodeems all Problem geléist gouf an de Site temporär stabiliséiert gouf, huet d'Equipe d'Tëschefäll aus SRE Siicht studéiert. Mir analyséieren d'Problemer am Detail - d'Ursaachen vun hirem Optriede, de Fortschrëtt vun der Eliminatioun. Duerno hu mir Team-fir-Team a kollektiv Décisiounen geholl wéi se se weider verhënneren: wéi d'Iwwerwaachung verbessert gëtt, wéi een d'Architektur clever verännert, wéi d'Approche fir d'Entwécklung an d'Operatioun unzepassen, wéi een d'Reglementer korrigéiert. D'Spriecher hunn d'Praxis vum Postmortem duerchgefouert.

Schlof SRE. E komplette Experiment mat Experten vu Booking.com a Google.com
„Wien wëll nach eng Péng! - Ech!"

D'Erfolleger vun den Equipen goufen strikt a kloer op der elektronescher Scoreboard festgehalen.

Schlof SRE. E komplette Experiment mat Experten vu Booking.com a Google.com

Fir éischt Plaze - e Bonus vun Akteuren.

Schlof SRE. E komplette Experiment mat Experten vu Booking.com a Google.com

Source: will.com

Setzt e Commentaire