Hoe ons die Yandex-diensskof ontruim het

Hoe ons die Yandex-diensskof ontruim het

Wanneer die werk in een skootrekenaar pas en outonoom vanaf ander mense uitgevoer kan word, is daar geen probleem om na 'n afgeleë plek te beweeg nie - dit is genoeg om soggens tuis te bly. Maar nie almal is so gelukkig nie.

Die diensskof is 'n span diensbeskikbaarheidspesialiste (SRE's). Dit sluit diensadministrateurs, ontwikkelaars, bestuurders in, sowel as 'n algemene "dashboard" van 26 LCD-panele van 55 duim elk. Die stabiliteit van die maatskappy se dienste en die spoed om probleme op te los hang af van die werk van die diensskof.

Vandag Dmitri Melikov tal10n, die hoof van die skof aan diens, sal praat oor hoe hulle in 'n kwessie van dae daarin geslaag het om die toerusting na hul huise te vervoer en nuwe werksprosesse te vestig. Ek gee hom die woord.

- Wanneer jy 'n oneindige voorraad tyd het, kan jy gemaklik met enigiets oral beweeg. Maar die vinnige verspreiding van die koronavirus het ons in heeltemal ander toestande geplaas. Yandex-werknemers was van die eerstes wat na afgeleë werk oorgeskakel het, selfs voor die instelling van die self-isolasie-regime. Dit het so gebeur. Op Donderdag 12 Maart is ek gevra om die moontlikheid te evalueer om die span se werk huis toe te skuif. Op Vrydag die 13de was daar 'n aanbeveling om na afgeleë werk oor te skakel. Die nag van Dinsdag 17 Maart was alles vir ons gereed: die bediendes het by die huis gewerk, die toerusting is geskuif, die ontbrekende sagteware is geskryf, die prosesse is herkonfigureer. En nou sal ek jou vertel hoe ons dit gedoen het. Maar eers moet jy onthou oor die take wat die diensskof oplos.

Wie is ons

Yandex is 'n groot maatskappy met honderde dienste. Die stabiliteit van soektog, stemassistent en alle ander produkte hang nie net van ontwikkelaars af nie. Die kragtoevoer kan in die datasentrum onderbreek word. 'n Werker tydens asfaltvervanging kan die optiese kabel per ongeluk beskadig. Of daar kan 'n toename in gebruikersaktiwiteit wees, wat 'n dringende hertoewysing van kapasiteit sal vereis. Boonop leef ons almal in 'n groot, komplekse infrastruktuur, en die vrystelling van een van die produkte kan per ongeluk lei tot die agteruitgang van 'n ander.

26 panele in ons oop ruimte is een en 'n half duisend waarskuwings en meer as honderd kaarte en panele van ons dienste. Trouens, dit is 'n groot diagnostiese paneel. 'n Ervare diensadministrateur, deur daarna te kyk, verstaan ​​vinnig die status van belangrike nodusse en kan die rigting bepaal vir die ondersoek van 'n tegnologiese probleem. Dit beteken nie dat 'n persoon voortdurend na al die toestelle moet kyk nie: die outomatisering self sal aandag trek deur 'n kennisgewing na die spesiale koppelvlak van die diensbeampte te stuur, maar sonder 'n visuele paneel kan die oplossing vir die probleem vertraag word.

Wanneer probleme voorkom, evalueer die bediende eers hul prioriteit. Dit isoleer dan die probleem of verminder die impak daarvan op gebruikers.

Daar is verskeie standaard maniere om 'n probleem te isoleer. Een daarvan is die agteruitgang van dienste, wanneer die administrateur aan diens sommige van die funksies deaktiveer wat gebruikers die minste opmerk. Dit laat jou toe om die las tydelik te verminder en uit te vind wat gebeur het. As daar 'n probleem met die datasentrum is, dan kontak die diensbeampte die operasionele span, verstaan ​​die probleem, beheer die tydsberekening van die oplossing daarvan en verbind, indien nodig, die betrokke spanne.

Wanneer die administrateur aan diens nie die probleem kan isoleer wat weens die vrystelling ontstaan ​​het nie, rapporteer hy dit aan die diensspan – en die ontwikkelaars soek foute in die nuwe kode. As hulle nie daarin slaag om dit uit te vind nie, lok die administrateur ontwikkelaars van ander produkte of ingenieurs vir die beskikbaarheid van dienste.

Ek kan lank praat oor hoe alles met ons gereël word, maar ek dink dat ek reeds die essensie oorgedra het. Die diensverskuiwing koördineer die werk van alle dienste en beheer globale probleme. Dit is belangrik vir die administrateur aan diens om 'n diagnostiese paneel voor sy oë te hê. Dit is hoekom wanneer jy oorskakel na afgeleë werk, kan jy nie net vir almal 'n skootrekenaar vat en gee nie. Grafieke en waarskuwings sal nie op die skerm pas nie. Wat om te doen?

Idee

In die kantoor werk al tien administrateurs aan diens in skofte by dieselfde paneelbord, wat 26 monitors, twee rekenaars, vier NVIDIA Quadro NVS 810-videokaarte, twee rekgemonteerde ononderbroke kragbronne en verskeie onafhanklike netwerktoegange insluit. Ons moes verseker dat almal die geleentheid het om van die huis af te werk. Dit is net nie moontlik om so 'n muur in 'n woonstel te monteer nie (my vrou sal veral bly wees daaroor), daarom het ons besluit om 'n draagbare weergawe te skep wat by die huis gebring en aanmekaargesit kan word.

Ons het begin eksperimenteer met die konfigurasie. Ons moes al die toestelle op minder skerms pas, so die hoofvereiste vir die monitor was 'n hoë piekseldigtheid. Van die 4K-monitors wat in ons omgewing beskikbaar is, het ons Lenovo P27u-10 vir toetse gekies.

Van skootrekenaars het ons 'n 16-duim MacBook Pro geneem. Dit het 'n redelik kragtige grafiese substelsel, wat nodig is om beelde op verskeie 4K-skerms weer te gee, en vier universele Type-C-koppelaars. Jy kan vra: hoekom nie lessenaar nie? Om 'n skootrekenaar met presies dieselfde een uit die pakhuis te vervang, is baie makliker en vinniger as om 'n identiese stelseleenheid saam te stel en op te stel. En ja, dit weeg minder.

Nou was dit nodig om te verstaan ​​hoeveel monitors ons werklik aan 'n skootrekenaar kan koppel. En die probleem hier is nie die aantal verbindings nie, ons kan dit net uitvind deur die stelsel as 'n samestelling te toets.

Hoe ons die Yandex-diensskof ontruim het

toets

Ons het alle kaarte en waarskuwings gemaklik op vier monitors geplaas en dit selfs aan 'n skootrekenaar gekoppel, maar ons het 'n probleem ondervind. Die weergawe van 4×4K piksels op die gekoppelde monitors het die videokaart so gelaai dat die skootrekenaar ontlaai is selfs terwyl dit gelaai is. Gelukkig is die probleem opgelos met die hulp van die Lenovo ThinkPad Thunderbolt 3 Dock Gen 2-dokstasie. Ons het daarin geslaag om 'n monitor, krag en selfs jou gunsteling muis en sleutelbord aan die koppelstasie te koppel.

Maar 'n ander probleem het dadelik opgeduik: die GPU het so opgeblaas dat die skootrekenaar oorverhit het, wat beteken dat die battery ook oorverhit het, wat as gevolg daarvan in beskermende modus gegaan het en opgehou het om beheer te neem. Oor die algemeen is dit 'n baie nuttige modus wat teen gevaarlike situasies beskerm. In sommige gevalle is die probleem opgelos met behulp van 'n hoëtegnologie-toestel - 'n balpuntpen wat onder die skootrekenaar geplaas is om ventilasie te verbeter. Maar dit het nie almal gehelp nie, so ons het ook die spoed van die standaardwaaier verhoog.

Daar was nog een onaangename kenmerk. Alle kaarte en waarskuwings moet op 'n streng gedefinieerde plek geplaas word. Stel jou voor dat jy 'n vliegtuig stuur om te land - en dan begin spoedaanwysers, hoogtemeters, variometers, kunsmatige horisonne, passers en posisieaanwysers van grootte verander en op verskillende plekke rondspring. Ons het dus besluit om 'n aansoek te maak wat hiermee sal help. In een aand het ons dit op Electron.js geskryf, met 'n klaargemaakte API vir die skep en bestuur van vensters. Ons het 'n konfigurasiehanteerder en hul periodieke opdatering bygevoeg, sowel as ondersteuning vir 'n beperkte aantal monitors. 'N Bietjie later het hulle ondersteuning vir verskillende opstellings bygevoeg.

Montering en aflewering

Teen Maandag het die towenaars van die hulptoonbank 40 monitors, tien skootrekenaars en dieselfde aantal koppelstasies vir ons bekom. Ek weet nie hoe hulle dit gedoen het nie, maar baie dankie.

Hoe ons die Yandex-diensskof ontruim het

Dit het oorgebly om dit alles by die woonstelle van die administrateurs aan diens af te lewer. En dit is tien adresse in verskillende dele van Moskou: suid, oos, middel, en ook Balashikha, wat 45 kilometer van die kantoor af is (terloops, 'n intern van Serpukhov is ook later bygevoeg). Dit was nodig om dit alles tussen mense te versprei, logistiek te bou.

Ek het al die adresse op ons Kaarte ingevoer, daar is steeds 'n geleentheid om die roete tussen verskillende punte te optimaliseer (ek het die gratis beta-weergawe van die instrument vir koeriers gebruik). Ons het ons span in vier onafhanklike spanne van twee mense verdeel, elk het sy eie roete gekry. My kar het geblyk die ruimste te wees, so ek het toerusting vir vier werknemers gelyk geneem.

Hoe ons die Yandex-diensskof ontruim het

Die hele aflewering het 'n rekord drie uur geneem. Ons het Maandag om XNUMX:XNUMX die kantoor verlaat. Eenuur die oggend was ek reeds by die huis. Dieselfde aand het ons met nuwe toerusting aan diens gegaan.

Met die gevolg dat

In plaas van een groot diagnostiese konsole, het ons tien relatief draagbares in die woonstel van elke diensbeampte versamel. Natuurlik was daar nog 'n paar goed wat uitgestryk moes word. Byvoorbeeld, voorheen het ons een "yster" foon van die diensbeampte gehad vir kennisgewings. Onder die nuwe omstandighede het dit nie gewerk nie, so ons het met "virtuele fone" vorendag gekom vir diegene wat aan diens was (in werklikheid, kanale in die boodskapper). Daar was ook ander veranderinge. Maar die belangrikste ding is dat ons in 'n rekordtyd daarin geslaag het om nie net mense oor te dra nie, wat die risiko van hul infeksie verminder het, maar al ons werk van die huis af sonder skade aan prosesse en produkstabiliteit. Ons doen dit nou al vir 'n maand.

Hieronder vind u foto's van die regte werke van ons bediendes.

Hoe ons die Yandex-diensskof ontruim het

Hoe ons die Yandex-diensskof ontruim het

Hoe ons die Yandex-diensskof ontruim het

Hoe ons die Yandex-diensskof ontruim het

Hoe ons die Yandex-diensskof ontruim het

Bron: will.com