Kako smo evakuirali Yandex dežurnu smjenu

Kako smo evakuirali Yandex dežurnu smjenu

Kada posao stane u jedno prijenosno računalo i može se obavljati autonomno od drugih ljudi, tada nema problema s premještanjem na udaljenu lokaciju - samo ujutro ostajete kod kuće. Ali nisu svi te sreće.

Dežurnu smjenu čini tim stručnjaka za dostupnost usluga (SRE). Uključuje dežurne administratore, programere, menadžere, kao i zajedničku “kontrolnu ploču” od 26 LCD panela od po 55 inča. O radu dežurstva ovisi stabilnost usluga tvrtke i brzina rješavanja problema.

Danas Dmitry Melikov tal10n, voditeljica dežurne smjene, govorit će kako su u nekoliko dana uspjeli prevesti opremu kući i uspostaviti nove procese rada. Dajem mu riječ.

— Kada imate beskrajnu zalihu vremena, možete se udobno kretati bilo gdje s bilo čime. No, brzo širenje koronavirusa dovelo nas je u sasvim druge uvjete. Zaposlenici Yandexa bili su među prvima koji su prešli na daljinski rad - čak i prije uvođenja režima samoizolacije. Desilo se ovako. U četvrtak, 12. ožujka, zamoljen sam da procijenim mogućnost preseljenja rada tima kući. U petak 13. pojavila se preporuka za prelazak na rad na daljinu. U noći na utorak, 17. ožujka, sve je bilo spremno: dežurni su radili od kuće, oprema je prevezena, softver koji je nedostajao napisan, procesi su rekonfigurirani. A sada ću vam reći kako smo to izveli. Ali prvo se morate sjetiti zadataka koje dežurna smjena rješava.

Tko smo mi

Yandex je velika tvrtka sa stotinama usluga. Stabilnost pretraživanja, glasovnog asistenta i svih ostalih proizvoda ne ovisi samo o programerima. Opskrba strujom u podatkovnom centru može biti prekinuta. Radnik može slučajno oštetiti optički kabel tijekom zamjene asfalta. Ili može doći do porasta aktivnosti korisnika, što uzrokuje hitnu potrebu za preraspodjelom kapaciteta. Štoviše, svi živimo u velikoj, složenoj infrastrukturi i puštanje jednog proizvoda može slučajno dovesti do degradacije drugog.

26 panela u našem otvorenom prostoru je tisuću i pol dojava i više od stotinu grafikona i panela naših usluga. U biti, ovo je ogromna dijagnostička ploča. Iskusni administrator na dužnosti može uvidom u njega brzo shvatiti status važnih komponenti i odrediti smjer za istraživanje tehnološkog problema. To ne znači da osoba treba stalno gledati sve uređaje: sama automatizacija će privući pozornost slanjem obavijesti na posebno sučelje dežurnog službenika, ali bez vizualne ploče rješavanje problema može potrajati dugo.

Kada se pojave problemi, dežurni prvo procjenjuje njihov prioritet. Zatim izolira problem ili minimizira njegov utjecaj na korisnike.

Postoji nekoliko standardnih načina za izolaciju problema. Jedan od njih je degradacija usluga, kada dežurni administrator onemogući neke od funkcija koje korisnici najmanje primjećuju. To vam omogućuje da privremeno smanjite opterećenje i shvatite što se dogodilo. Ukoliko dođe do problema s podatkovnim centrom, dežurni kontaktira operativni tim, razumije problem, prati vrijeme njegovog rješavanja i po potrebi uključuje specijalizirane timove.

Kada dežurni administrator ne može izolirati problem koji je nastao zbog izdanja, on to prijavljuje servisnom timu - a programeri traže greške u novom kodu. Ako ne mogu shvatiti, tada administrator privlači programere iz drugih proizvoda ili inženjere dostupnosti usluga.

Mogu dugo pričati kako sve ovdje funkcionira, ali mislim da sam već prenio suštinu. Dežurstvo koordinira rad svih službi i prati globalne probleme. Dežurnom administratoru je važno da dijagnostička ploča bude pred očima. Zato, kada prelazite na rad na daljinu, ne možete svima dati prijenosno računalo. Grafikoni i upozorenja neće stati na zaslon. Što uraditi?

Ideja

U uredu svih deset dežurnih administratora rade u smjenama za jednom nadzornom pločom koja uključuje 26 monitora, dva računala, četiri NVIDIA Quadro NVS 810 video kartice, dva rack mount besprekidna napajanja i nekoliko neovisnih mrežnih pristupa. Trebali smo osigurati da svi imaju priliku raditi kod kuće. Takav zid jednostavno nije moguće sastaviti u stanu (tome će se posebno obradovati moja supruga), pa smo odlučili napraviti prijenosnu verziju koja se može donijeti i sastaviti kod kuće.

Počeli smo eksperimentirati s konfiguracijom. Trebali smo smjestiti sve uređaje na manje zaslona, ​​tako da je glavni zahtjev za monitor bila visoka gustoća piksela. Od 4K monitora dostupnih u našem okruženju, za testiranje smo odabrali Lenovo P27u-10.

Od prijenosnih računala uzeli smo 16-inčni MacBook Pro. Ima prilično moćan grafički podsustav, neophodan za renderiranje slika na nekoliko 4K zaslona i četiri univerzalna Type-C konektora. Možda se pitate: zašto ne desktop? Zamjena prijenosnog računala potpuno istim iz skladišta puno je lakša i brža od sastavljanja i konfiguriranja identične jedinice sustava. I manje teži.

Sada smo trebali razumjeti koliko monitora zapravo možemo spojiti na prijenosno računalo. I ovdje nije problem broj konektora, to smo mogli saznati samo testiranjem sastavljenog sustava.

Kako smo evakuirali Yandex dežurnu smjenu

Testiranje

Sasvim smo komotno smjestili sve grafikone i upozorenja na četiri monitora i čak ih povezali s prijenosnim računalom, ali smo naišli na problem. Renderiranje 4x4K piksela na povezanim monitorima toliko je opteretilo video karticu da se prijenosno računalo ispraznilo čak i tijekom punjenja. Srećom, problem je riješen uz pomoć Lenovo ThinkPad Thunderbolt 3 Dock Gen 2. Na docking stanicu sam uspio spojiti monitor, napajanje, pa čak i svoj omiljeni miš i tipkovnicu.

Ali odmah se pojavio još jedan problem: GPU je toliko gutao da se laptop pregrijao, što znači da se pregrijala i baterija, koja je kao rezultat toga prešla u zaštitni način rada i prestala se puniti. Općenito, ovo je vrlo koristan način rada koji štiti od opasnih situacija. U nekim slučajevima problem je riješen uz pomoć visokotehnološkog uređaja - kemijske olovke postavljene ispod prijenosnog računala kako bi se poboljšala ventilacija. Ali to nije pomoglo svima, pa smo povećali i brzinu standardnog ventilatora.

Postojala je još jedna neugodna karakteristika. Sve karte i upozorenja moraju se nalaziti na točno određenom mjestu. Zamislite da pilotirate avionom za slijetanje - a zatim indikatori brzine, visinomjeri, variometri, indikatori položaja, kompasi i indikatori položaja počinju mijenjati veličinu i skakati na različita mjesta. Stoga smo odlučili napraviti aplikaciju koja će u tome pomoći. Jedne večeri napisali smo to u Electron.js, uzimajući već gotovu API o stvaranju i upravljanju prozorima. Dodali smo konfiguracijski procesor i njihovo periodično ažuriranje, kao i podršku za ograničeni broj monitora. Malo kasnije dodali su podršku za razne postavke.

Montaža i isporuka

Do ponedjeljka su nam čarobnjaci iz help deska nabavili 40 monitora, deset prijenosnih računala i isto toliko docking stanica. Ne znam kako su uspjeli, ali hvala im puno.

Kako smo evakuirali Yandex dežurnu smjenu

Ostalo je samo da se sve to dostavi u stanove dežurnih administratora. A ovo je deset adresa u različitim dijelovima Moskve: jug, istok, centar, a također i Balashikha, koja je 45 kilometara od ureda (usput, kasnije je dodan pripravnik iz Serpukhova). Trebalo je sve to nekako rasporediti među ljudima, izgraditi logistiku.

Unio sam sve adrese na naše karte, još uvijek postoji mogućnost optimizacije rute između različitih točaka (koristio sam besplatnu beta verziju alata za kurire). Naš tim smo podijelili u četiri neovisna tima od po dvoje ljudi, svaki sa svojom rutom. Moj auto se pokazao najprostranijim, pa sam uzeo opremu za četiri zaposlenika odjednom.

Kako smo evakuirali Yandex dežurnu smjenu

Cijeli porođaj trajao je rekordnih tri sata. Otišli smo iz ureda u deset navečer u ponedjeljak. U jedan sat ujutro već sam bio kod kuće. Iste noći krenuli smo na dežurstvo s novom opremom.

S rezultatom da

Umjesto jedne velike dijagnostičke konzole, montirali smo deset relativno prijenosnih u stanu svakog dežurnog. Naravno, bilo je još nekih detalja za riješiti. Recimo, imali smo jedan “željezni” telefon za dežurnog za dojave. To u novim uvjetima nije funkcioniralo, pa smo smislili "virtualne telefone" za dežurne (u biti kanale u messengeru). Bilo je i drugih promjena. Ali najvažnije je da smo u rekordnom vremenu uspjeli prenijeti ne samo ljude, smanjujući rizik od njihove infekcije, već i sav naš posao kući bez štete po procese i stabilnost proizvoda. U ovom režimu radimo već mjesec dana.

U nastavku se nalaze fotografije stvarnih radnih mjesta naših dežurnih.

Kako smo evakuirali Yandex dežurnu smjenu

Kako smo evakuirali Yandex dežurnu smjenu

Kako smo evakuirali Yandex dežurnu smjenu

Kako smo evakuirali Yandex dežurnu smjenu

Kako smo evakuirali Yandex dežurnu smjenu

Izvor: www.habr.com