Kako smo evakuirali Yandexovo dežurno izmeno

Kako smo evakuirali Yandexovo dežurno izmeno

Ko delo spravite v en prenosni računalnik in ga lahko opravljate neodvisno od drugih ljudi, potem ni težav s selitvijo na oddaljeno lokacijo – samo zjutraj ostanite doma. Nimajo pa vsi te sreče.

Dežurna izmena je ekipa strokovnjakov za razpoložljivost storitev (SRE). Vključuje dežurne skrbnike, razvijalce, menedžerje, pa tudi skupno "nadzorno ploščo" s 26 LCD ploščami po 55 palcev. Stabilnost storitev podjetja in hitrost reševanja problemov sta odvisna od dela dežurne izmene.

Danes Dmitry Melikov tal10n, vodja dežurne izmene, bo spregovoril o tem, kako jim je v nekaj dneh uspelo prepeljati opremo na dom in vzpostaviti nove delovne procese. Dam mu besedo.

- Ko imate neskončno zalogo časa, se lahko udobno premikate s čimer koli. Toda hitro širjenje koronavirusa nas je postavilo v popolnoma drugačne razmere. Zaposleni v Yandexu so bili med prvimi, ki so prešli na delo na daljavo, še pred uvedbo režima samoizolacije. Zgodilo se je takole. V četrtek, 12. marca, so me prosili, da ocenim možnost selitve dela ekipe domov. V petek 13. je bilo priporočilo za prehod na delo na daljavo. V noči na torek, 17. marca, je bilo za nas vse pripravljeno: spremljevalci so delali doma, oprema je bila prestavljena, manjkajoča programska oprema je bila napisana, procesi so bili na novo nastavljeni. In zdaj vam bom povedal, kako nam je uspelo. Najprej pa se morate spomniti nalog, ki jih rešuje dežurna izmena.

Kdo smo mi

Yandex je veliko podjetje s stotinami storitev. Stabilnost iskanja, glasovnega pomočnika in vseh drugih izdelkov ni odvisna samo od razvijalcev. V podatkovnem centru lahko pride do prekinitve napajanja. Delavec med menjavo asfalta lahko po nesreči poškoduje optični kabel. Lahko pa pride do porasta aktivnosti uporabnikov, kar bo zahtevalo nujno prerazporeditev zmogljivosti. Poleg tega vsi živimo v veliki, zapleteni infrastrukturi in sprostitev enega od izdelkov lahko po nesreči povzroči degradacijo drugega.

26 plošč v našem odprtem prostoru je tisoč in pol opozoril in več kot sto grafikonov in plošč naših storitev. Pravzaprav je to ogromna diagnostična plošča. Izkušen dežurni skrbnik ob pogledu nanj hitro razume stanje pomembnih vozlišč in lahko določi smer raziskovanja tehnološke težave. To ne pomeni, da mora oseba nenehno gledati vse naprave: avtomatizacija bo pritegnila pozornost s pošiljanjem obvestila posebnemu vmesniku dežurnega uradnika, vendar brez vizualne plošče lahko rešitev težave zamuja.

Ko pride do težav, spremljevalec najprej oceni njihovo prioriteto. Nato izolira težavo ali zmanjša njen vpliv na uporabnike.

Obstaja več standardnih načinov za izolacijo težave. Eden od njih je degradacija storitev, ko dežurni administrator onemogoči nekatere funkcije, ki jih uporabniki najmanj opazijo. To vam omogoča, da začasno zmanjšate obremenitev in ugotovite, kaj se je zgodilo. Če pride do težave s podatkovnim centrom, dežurni stopi v stik z operativno ekipo, razume težavo, nadzoruje čas njene rešitve in po potrebi poveže ustrezne ekipe.

Ko dežurni skrbnik ne more izolirati težave, ki je nastala zaradi izdaje, jo prijavi servisni ekipi - razvijalci pa iščejo napake v novi kodi. Če tega ne morejo ugotoviti, skrbnik pritegne razvijalce iz drugih izdelkov ali inženirje za razpoložljivost storitev.

O tem, kako je pri nas vse urejeno, lahko govorim dolgo, a mislim, da sem bistvo že posredoval. Dežurna izmena usklajuje delo vseh služb in nadzoruje globalne probleme. Za dežurnega administratorja je pomembno, da ima diagnostično ploščo pred očmi. Zato, ko preklopite na delo na daljavo, ne morete vsem kar vzeti in dati prenosnega računalnika. Grafikoni in opozorila ne bodo ustrezali zaslonu. Kaj storiti?

Ideja

V pisarni dela vseh deset dežurnih administratorjev v izmenah za isto armaturno ploščo, ki vključuje 26 monitorjev, dva računalnika, štiri grafične kartice NVIDIA Quadro NVS 810, dva omrežna brezprekinitvena napajalnika in več neodvisnih omrežnih dostopov. Zagotoviti smo morali, da imajo vsi možnost dela od doma. Takšne stene pač ni mogoče sestaviti v stanovanju (še posebej bo vesela moja žena), zato smo se odločili ustvariti prenosno različico, ki jo lahko prinesemo in sestavimo doma.

Začeli smo eksperimentirati s konfiguracijo. Vse naprave smo morali namestiti na manj zaslonov, zato je bila glavna zahteva za monitor visoka gostota slikovnih pik. Izmed monitorjev 4K, ki so na voljo v našem okolju, smo za preizkus izbrali Lenovo P27u-10.

Od prenosnikov smo vzeli 16-palčni MacBook Pro. Ima precej zmogljiv grafični podsistem, ki je potreben za upodabljanje slik na več zaslonih 4K, in štiri univerzalne priključke Type-C. Lahko se vprašate: zakaj ne namizje? Zamenjava prenosnika s povsem enakim iz skladišča je veliko lažja in hitrejša kot sestavljanje in konfiguriranje enake sistemske enote. In ja, tehta manj.

Zdaj je bilo treba razumeti, koliko monitorjev lahko v resnici povežemo s prenosnikom. In tukaj ni težava v številu konektorjev, to bi lahko ugotovili le s preizkusom sistema kot sklopa.

Kako smo evakuirali Yandexovo dežurno izmeno

Testiranje

Vse grafikone in opozorila smo udobno postavili na štiri monitorje in jih celo povezali s prenosnikom, a smo naleteli na težavo. Upodabljanje 4×4K slikovnih pik na povezanih monitorjih je tako obremenilo video kartico, da je bil prenosnik izpraznjen tudi med polnjenjem. Na srečo je bila težava odpravljena s pomočjo priklopne postaje Lenovo ThinkPad Thunderbolt 3 Dock Gen 2. Na priklopno postajo smo uspeli povezati monitor, napajanje in celo vašo najljubšo miško in tipkovnico.

A takoj se je pojavila še ena težava: grafični procesor je tako brskal, da se je prenosnik pregrel, kar pomeni, da se je pregrela tudi baterija, ki je posledično prešla v zaščitni način in prenehala sprejemati polnjenje. Na splošno je to zelo uporaben način, ki ščiti pred nevarnimi situacijami. V nekaterih primerih je bila težava rešena s pomočjo visokotehnološke naprave - kemičnega svinčnika, nameščenega pod prenosnik za izboljšanje prezračevanja. Vendar to ni pomagalo vsem, zato smo povečali tudi hitrost standardnega ventilatorja.

Bila je še ena neprijetna lastnost. Vse karte in opozorila morajo biti nameščena na točno določenem mestu. Predstavljajte si, da pilotirate letalo, da bi pristalo - in nato indikatorji hitrosti, višinomeri, variometri, umetni horizonti, kompasi in kazalniki položaja začnejo spreminjati velikost in skakati na različnih mestih. Zato smo se odločili narediti aplikacijo, ki bo pri tem pomagala. V enem večeru smo ga napisali na Electron.js in vzeli že pripravljeno API o ustvarjanju in upravljanju oken. Dodali smo konfiguracijski procesor in njihovo periodično posodabljanje ter podporo za omejeno število monitorjev. Malo kasneje so dodali podporo za različne nastavitve.

Montaža in dostava

Do ponedeljka so nam čarovniki iz službe za pomoč priskrbeli 40 monitorjev, deset prenosnikov in prav toliko priključnih postaj. Ne vem, kako jim je uspelo, ampak najlepša hvala.

Kako smo evakuirali Yandexovo dežurno izmeno

Preostalo je le še, da vse to dostavimo v stanovanja dežurnih upravnikov. In to je deset naslovov v različnih delih Moskve: jug, vzhod, center in tudi Balashikha, ki je 45 kilometrov od pisarne (mimogrede, kasneje je bil dodan pripravnik iz Serpukhova). Vse to je bilo treba nekako porazdeliti med ljudi, zgraditi logistiko.

V naše zemljevide sem vnesel vse naslove, še vedno obstaja možnost optimizacije poti med različnimi točkami (uporabil sem brezplačno beta različico orodja za kurirje). Našo ekipo smo razdelili v štiri neodvisne ekipe po dva človeka, vsaka s svojo traso. Moj avto se je izkazal za najbolj prostornega, zato sem vzel opremo za štiri zaposlene hkrati.

Kako smo evakuirali Yandexovo dežurno izmeno

Celotna dostava je trajala rekordne tri ure. V ponedeljek ob desetih zvečer smo odšli iz pisarne. Ob enih zjutraj sem bil že doma. Še isto noč smo odšli v službo z novo opremo.

Kar pomeni, da

Namesto ene velike diagnostične konzole smo v stanovanju vsakega dežurnega zbrali deset relativno prenosnih. Seveda je bilo treba še nekaj stvari zgladiti. Na primer, prej smo imeli en "železni" telefon dežurnega za obvestila. V novih razmerah to ni delovalo, zato smo si omislili »virtualne telefone« za dežurne (pravzaprav kanale v messengerju). Prišlo je tudi do drugih sprememb. Toda glavna stvar je, da nam je v rekordnem času uspelo prenesti ne le ljudi, s čimer smo zmanjšali tveganje za njihovo okužbo, ampak vse naše delo od doma brez škode za procese in stabilnost izdelka. To počnemo že en mesec.

Spodaj boste našli fotografije resničnih delovnih mest naših spremljevalcev.

Kako smo evakuirali Yandexovo dežurno izmeno

Kako smo evakuirali Yandexovo dežurno izmeno

Kako smo evakuirali Yandexovo dežurno izmeno

Kako smo evakuirali Yandexovo dežurno izmeno

Kako smo evakuirali Yandexovo dežurno izmeno

Vir: www.habr.com