Slurm SRE. Esperimentu osoa Booking.com eta Google.com-eko adituekin

Gure taldeari esperimentuak gustatzen zaizkio. Slurm bakoitza ez da aurrekoen errepikapen estatiko bat, esperientziari buruzko hausnarketa bat baizik eta onetik hoberako trantsizioa. Baina batera Slurm SRE formatu guztiz berria aplikatzea erabaki genuen, parte-hartzaileei “borrokarako” ahalik eta gertuen dauden baldintzak eskaintzea.

Ikastaro trinkoan egindakoa laburki azaltzen badugu: “Eraikitzen dugu, apurtzen dugu, konpontzen dugu,
ikasten ari gara». SREk ezer gutxi balio du teoria hutsean: praktikak, benetako irtenbideak, benetako arazoak soilik.

Parte-hartzaileak taldetan banatu ziren, lehia-espiritu indartsu batek inor ez lo hartzeko edo "Angry Birds" iPhonean abiarazi ez zezan, Dmitry Anatolyevich-en adibidea jarraituz.

Arazoak, akatsak, akatsak eta zereginak lau tutoreek eman zizkieten parte-hartzaileei. Ivan Kruglov, Booking.com-en (Herbehereak) garatzaile nagusia. Ben Tyler, Booking.com-en (AEB) garatzaile nagusia. Eduard Medvedev, Tungsten Labs-eko (Alemania) CTO. Evgeniy Varavva, Google-ko (San Frantzisko) garatzaile orokorra.

Gainera, parte hartzaileak taldetan banatu eta elkarren artean lehiatzen dira. Interesgarria?

Slurm SRE. Esperimentu osoa Booking.com eta Google.com-eko adituekin
Ivan, Ben, Eduard eta Evgeniy-k Slurm SREko parte-hartzaile txiroei begiratzen dizkiete leninista leninista atseginekin lehiaketa hasi aurretik.

Beraz, zeregina:

Gureak gara, mundu berri bat eraikiko dugu...

Filmetarako sarrerak agregatzeko webgune bat dago. Gorabeherak tutoreek asmatzen dituzte aurrez landutako eszenatoki batean (inork inprobisazio bereziki sofistikatua eta maltzurra baztertzen ez duen arren), gunearen errendimendua hainbat metrika deskribatzen da. Arazoak oso desberdinak izan daitezke: Moulin Rouge antzokirako sarrerak ez dira datu basean kargatzen; filmen eta emanaldien kartelak datu basean kargatzen dira 10 segundo baino gehiagotan; film indibidual baten deskribapena izoztu egiten da; Eskaeren %0,1 erreserbatuta daude dagoeneko; Tarteka ordainketa prozesatzeko sistema huts egiten du minutu bat edo bi. Eta gauza desatsegin asko, asko eta asko, Slurm SREko parte-hartzaile bati bere benetako lanean gerta daitezkeenak.

Slurm SRE. Esperimentu osoa Booking.com eta Google.com-eko adituekin
Edozer gauza kudeatzeko prest gaude... eta denek.

Aspaldiko gure webgunea hainbat mikrozerbitzuk osatzen dute. Bere zeregina zinema-areto guztietako emankizunei, prezioei eta eskuragarri dauden eserlekuei buruzko datuak batzea da; filmen iragarkiak erakusten ditu, zinema, ikuskizuna, aretoa eta lekua hautatzeko, sarrerak erreserbatu eta ordaintzeko aukera ematen du. Oro har, ikusleak amestu baino ezin duen guztia. Baina erabiltzaileak ez du susmatu ere egiten gunearen egonkortasunaren eta irisgarritasunaren aldeko zein borroka titanikoa gertatzen ari den barruan.

Gune intentsiborako, SLO, SLI, SLA adierazleak sortu ditugu, arkitektura eta azpiegitura garatu, gunea zabaldu, monitorizazioa eta alertak ezarri ditugu. Eta alde egiten dugu.

SLO, SLI, SLA

SLI - zerbitzu-mailaren adierazleak. SLOak zerbitzu mailaren helburuak dira. SLA - zerbitzu-maila-hitzarmenak.

SLA ITIL metodologia-termino bat da, zerbitzu baten bezeroaren eta bere hornitzailearen arteko akordio formala adierazten duena, zerbitzuaren deskribapena, alderdien eskubide eta betebeharrak eta, batez ere, hau emateko adostutako kalitate maila jasotzen duena. zerbitzua.

SLO bat zerbitzu-mailaren helburua da: SLI-k neurtzen duen zerbitzu-maila baterako helburu-balioa edo balio-tartea. SLOren balio normal bat "SLI ≤ Helburua" edo "Beheko muga ≤ SLI ≤ Goiko muga" da.

SLI zerbitzu-mailaren adierazle bat da, arretaz definitutako zerbitzu-mailaren alderdi baten neurketa kuantitatiboa. Zerbitzu gehienetarako, SLI gakoa eskaeraren latentziatzat hartzen da - zenbat denbora behar duen eskaera bati erantzuna itzultzeko. Beste SLI arrunten artean, errore-tasa, askotan jasotako eskaera guztien zati gisa adierazten da, eta sistemaren errendimendua, normalean segundoko eskaeretan neurtuta.

Lehenik eta behin, hegazkinak hautsiko ditugu, eta gero neskak, eta gero neskak...

Barne eta kanpoko faktoreak SLO "hondatzen" hasi ziren lehen minutuetatik. Administratzaileen buruetan erori zen dena: garatzaileen akatsak, azpiegituren akatsak, bisitarien ugaritasuna eta DDoS erasoak. SLO okertzen duen guztia.

Slurm SRE. Esperimentu osoa Booking.com eta Google.com-eko adituekin
“- Parte hartzaile agurgarriak, zuei atsegin ematera azkartzen naiz, huts egiten duzun lehenengo gauza da... dena!”.

Bide horretan, hizlariek egonkortasuna, akatsen aurrekontua, proben praktika, etenen kudeaketa eta karga operatiboa izan dituzte hizpide.

Ez gara sukaldariak, ez arotzak...

Ondoren, parte-hartzaileak gauzak konpontzen hasi ziren - gauza nagusia lehenik zer hartu behar den ulertzea da.

Slurm SRE. Esperimentu osoa Booking.com eta Google.com-eko adituekin
"-Jauna, ez dut sekula ikusi horrelako hautsirik, forma honetan eta halako egoeran!"

Beraz, istripu bat gertatu zen. Ordainketak prozesatzeko zerbitzua behera egin du. Nola jokatu funtzionaltasuna ahalik eta denbora laburrenean berreskuratzeko?

Slurm SRE. Esperimentu osoa Booking.com eta Google.com-eko adituekin
Adituek, parte-hartzaileei maitasun handiz begiratuz, beste trikimailu bat prestatzen ari dira.

Talde bakoitzak istripua kentzeko taldearen lana antolatzen du - lankideak inplikatzen ditu, interesdunei (interesatuak) jakinarazten die. Aldi berean, lehentasunak ezartzen dira. Modu honetan, parte hartzaileak presiopean lan egiteko trebatu ziren denbora oso mugatuko baldintzetan.

Slurm SRE. Esperimentu osoa Booking.com eta Google.com-eko adituekin
"Zer izu mota atera da?!"

Arnasa bota... eta amaitu ariketa

Hizlariekin batera, arazo bakoitza konpondu eta gunea behin-behinean egonkortu ostean, taldeak SREren ikuspuntutik aztertu zituen gorabeherak. Arazoak zehatz-mehatz aztertu ditugu: agerraldiaren kausak, ezabatzearen aurrerapena. Horren ostean, taldez talde zein kolektiboki, horiek gehiago prebenitzeko erabakiak hartu genituen: nola hobetu monitorizazioa, nola aldatu arkitektura zentzuz, nola egokitu garapenaren eta funtzionamenduaren ikuspegia, nola zuzendu araudia. Hizlariek autopsia egiteko praktika erakutsi zuten.

Slurm SRE. Esperimentu osoa Booking.com eta Google.com-eko adituekin
«Nork nahi du oinazea! -Ni!"

Markagailu elektronikoan zorrozki eta argi jaso ziren taldeen arrakastak.

Slurm SRE. Esperimentu osoa Booking.com eta Google.com-eko adituekin

Lehen postuetarako - interesdunen hobaria.

Slurm SRE. Esperimentu osoa Booking.com eta Google.com-eko adituekin

Iturria: www.habr.com

Gehitu iruzkin berria