Kako smo evakuirali dežurnu smjenu Yandexa

Kako smo evakuirali dežurnu smjenu Yandexa

Kada posao stane u jedan laptop i može se obavljati samostalno od drugih ljudi, onda nema problema da se preselite na udaljenu lokaciju - dovoljno je ujutro ostati kod kuće. Ali nisu svi te sreće.

Dežurna smjena je tim stručnjaka za dostupnost usluga (SRE). Uključuje dežurne administratore, programere, menadžere, kao i zajedničku "kontrolnu tablu" od 26 LCD panela od 55 inča svaki. Od rada dežurstva zavisi stabilnost usluga kompanije i brzina rešavanja problema.

Danas Dmitry Melikov tal10n, dežurni šef smjene, pričaće kako su za nekoliko dana uspjeli da prevezu opremu do svojih domova i uspostave nove procese rada. Dajem mu reč.

- Kada imate beskonačnu količinu vremena, možete se udobno kretati sa bilo čim bilo gdje. Ali brzo širenje korona virusa nas je dovelo u potpuno drugačije uslove. Zaposleni Yandexa među prvima su prešli na daljinski rad, čak i prije uvođenja režima samoizolacije. Desilo se ovako. U četvrtak, 12. marta, zamolili su me da procijenim mogućnost premještanja posla tima kući. U petak 13. bila je preporuka da se pređe na daljinski rad. U noći na utorak, 17. marta, sve je bilo spremno za nas: dežurni su radili kod kuće, oprema je premeštena, softver koji nedostaje, napisan, procesi su rekonfigurisani. A sada ću vam reći kako smo to uradili. Ali prvo se morate sjetiti zadataka koje rješava dežurna smjena.

Ko smo mi

Yandex je velika kompanija sa stotinama usluga. Stabilnost pretraživanja, glasovnog asistenta i svih ostalih proizvoda ne zavisi samo od programera. Može doći do prekida napajanja u data centru. Radnik prilikom zamjene asfalta može slučajno oštetiti optički kabel. Ili može doći do porasta aktivnosti korisnika, što će zahtijevati hitnu preraspodjelu kapaciteta. Štoviše, svi živimo u velikoj, složenoj infrastrukturi, a oslobađanje jednog od proizvoda može slučajno dovesti do degradacije drugog.

26 panela na našem otvorenom prostoru su hiljadu i pol upozorenja i više od stotinu grafikona i panela naših usluga. Zapravo, ovo je ogroman dijagnostički panel. Iskusni dežurni administrator, gledajući ga, brzo razumije status važnih čvorova i može postaviti smjer za istraživanje tehnološkog problema. To ne znači da osoba treba stalno gledati sve uređaje: sama automatizacija će privući pažnju slanjem obavijesti na posebno sučelje dežurnog, ali bez vizualnog panela rješenje problema može biti odgođeno.

Kada dođe do problema, polaznik prvo procjenjuje njihov prioritet. Zatim izoluje problem ili minimizira njegov uticaj na korisnike.

Postoji nekoliko standardnih načina za izolaciju problema. Jedna od njih je degradacija servisa, kada dežurni administrator onemogućuje neke od funkcija koje korisnici najmanje primjećuju. Ovo vam omogućava da privremeno smanjite opterećenje i shvatite šta se dogodilo. Ako postoji problem sa data centrom, dežurni kontaktira operativni tim, razumije problem, kontrolira vrijeme njegovog rješavanja i po potrebi povezuje relevantne timove.

Kada dežurni administrator ne može izolirati problem koji je nastao zbog izlaska, on to prijavljuje servisnom timu - a programeri traže greške u novom kodu. Ako to ne shvate, tada administrator privlači programere iz drugih proizvoda ili inženjere radi dostupnosti usluga.

Mogu dugo pričati kako je kod nas sve uređeno, ali mislim da sam već prenio suštinu. Dežurna smjena koordinira rad svih službi i kontroliše globalne probleme. Važno je da dežurni administrator ima dijagnostički panel pred očima. Zato kada pređete na rad na daljinu, ne možete jednostavno uzeti i dati svima laptop. Grafikoni i upozorenja neće stati na ekran. sta da radim?

Ideja

U kancelariji svih deset dežurnih administratora radi u smjenama na istoj kontrolnoj tabli, koja uključuje 26 monitora, dva računara, četiri NVIDIA Quadro NVS 810 video kartice, dva uređaja za neprekidno napajanje u stalak i nekoliko nezavisnih pristupa mreži. Trebali smo osigurati da svi imaju priliku da rade od kuće. Jednostavno nije moguće montirati takav zid u stanu (moja supruga će biti posebno sretna zbog toga), pa smo odlučili napraviti prijenosnu verziju koja se može donijeti i sastaviti kod kuće.

Počeli smo eksperimentirati s konfiguracijom. Trebali smo sve uređaje smjestiti na manje displeja, tako da je glavni zahtjev za monitor bio visoka gustoća piksela. Od 4K monitora dostupnih u našem okruženju, za testove smo odabrali Lenovo P27u-10.

Od laptopa smo uzeli 16-inčni MacBook Pro. Ima prilično moćan grafički podsistem, koji je neophodan za renderovanje slika na nekoliko 4K displeja, i četiri univerzalna Type-C konektora. Možete pitati: zašto ne desktop? Zamjena laptopa sa potpuno istim iz skladišta je mnogo lakša i brža od sklapanja i konfigurisanja identične sistemske jedinice. I da, teži je manje.

Sada je bilo potrebno shvatiti koliko monitora zapravo možemo spojiti na laptop. A problem ovdje nije broj konektora, to smo mogli saznati samo testiranjem sistema kao sklopa.

Kako smo evakuirali dežurnu smjenu Yandexa

Testiranje

Sve grafikone i upozorenja smo udobno smjestili na četiri monitora i čak ih povezali sa laptopom, ali smo naišli na problem. Rendering 4×4K piksela na povezanim monitorima toliko je opteretio video karticu da se laptop ispraznio čak i tokom punjenja. Na sreću, problem je rešen uz pomoć priključne stanice Lenovo ThinkPad Thunderbolt 3 Dock Gen 2. Uspeli smo da povežemo monitor, napajanje, pa čak i vaš omiljeni miš i tastaturu na priključnu stanicu.

No, odmah je isplivao još jedan problem: GPU je toliko puhao da se laptop pregrijao, što znači da se i baterija pregrijala, koja je kao rezultat toga prešla u zaštitni način rada i prestala da se puni. Općenito, ovo je vrlo koristan način rada koji štiti od opasnih situacija. U nekim slučajevima problem je riješen uz pomoć uređaja visoke tehnologije - hemijske olovke postavljene ispod laptopa kako bi se poboljšala ventilacija. Ali to nije pomoglo svima, pa smo također povećali brzinu standardnog ventilatora.

Postojala je još jedna neprijatna karakteristika. Svi grafikoni i upozorenja moraju biti postavljeni na strogo određenom mjestu. Zamislite da upravljate avionom za sletanje - a onda indikatori brzine, visinomjeri, variometri, umjetni horizonti, kompasi i indikatori položaja počinju mijenjati veličinu i skakati na različitim mjestima. Stoga smo odlučili napraviti aplikaciju koja će pomoći u tome. Za jedno veče smo to napisali na Electron.js, uzimajući gotove API za kreiranje i upravljanje prozorima. Dodali smo obrađivač konfiguracije i njihovo periodično ažuriranje, kao i podršku za ograničen broj monitora. Nešto kasnije, dodali su podršku za različite postavke.

Montaža i isporuka

Do ponedjeljka su nam čarobnjaci iz helpdeska nabavili 40 monitora, deset laptopa i isto toliko priključnih stanica. Ne znam kako su to uradili, ali hvala im puno.

Kako smo evakuirali dežurnu smjenu Yandexa

Ostalo je sve to dostaviti u stanove dežurnih administratora. A ovo je deset adresa u različitim delovima Moskve: jug, istok, centar, a takođe i Balašiha, koja je 45 kilometara od kancelarije (usput rečeno, kasnije je dodat i pripravnik iz Serpuhova). Trebalo je nekako sve to rasporediti među ljudima, izgraditi logistiku.

Uneo sam sve adrese na našim mapama, još uvek postoji mogućnost da optimizujem rutu između različitih tačaka (koristio sam besplatnu beta verziju alata za kurire). Naš tim smo podijelili u četiri nezavisna tima od po dvoje ljudi, svaki je dobio svoju rutu. Moj auto se pokazao najprostranijim, pa sam uzeo opremu za četiri zaposlena odjednom.

Kako smo evakuirali dežurnu smjenu Yandexa

Cijela isporuka trajala je rekordna tri sata. Napustili smo ured u ponedjeljak u XNUMX sata. U jedan sat ujutro već sam bio kod kuće. Iste noći smo išli na dežurstvo sa novom opremom.

Šta je na kraju

Umjesto jedne velike dijagnostičke konzole, u stanu svakog dežurnog prikupili smo deset relativno prijenosnih. Naravno, ostalo je još nekoliko stvari koje je trebalo ispeglati. Na primjer, ranije smo imali jedan "gvozdeni" telefon dežurnog za obavještenja. U novim uslovima to nije išlo, pa smo osmislili „virtuelne telefone“ za dežurne (u stvari, kanale u messengeru). Bilo je i drugih promjena. Ali najvažnije je da smo u rekordnom roku uspjeli prebaciti ne samo ljude, smanjujući rizik od njihove infekcije, već i sav naš posao od kuće bez štete po procese i stabilnost proizvoda. Radimo to već mjesec dana.

Ispod ćete pronaći fotografije stvarnih poslova naših polaznika.

Kako smo evakuirali dežurnu smjenu Yandexa

Kako smo evakuirali dežurnu smjenu Yandexa

Kako smo evakuirali dežurnu smjenu Yandexa

Kako smo evakuirali dežurnu smjenu Yandexa

Kako smo evakuirali dežurnu smjenu Yandexa

izvor: www.habr.com