Kā mēs evakuējām Yandex darba maiņu

Kā mēs evakuējām Yandex darba maiņu

Kad darbs ietilpst vienā klēpjdatorā un to var veikt autonomi no citiem cilvēkiem, tad nav nekādu problēmu pārcelties uz attālu vietu – vienkārši no rīta palikt mājās. Bet ne visiem ir tik paveicies.

Dežūras maiņa ir pakalpojumu pieejamības speciālistu (SRE) komanda. Tas ietver pienākumu administratorus, izstrādātājus, vadītājus, kā arī kopīgu “informācijas paneli” ar 26 LCD paneļiem, katrs 55 collas. Uzņēmuma pakalpojumu stabilitāte un problēmu risināšanas ātrums ir atkarīgs no dežūrdaļas darba.

Šodien Dmitrijs Meļikovs tal10n, dežūrdaļas vadītāja, pastāstīs par to, kā dažu dienu laikā izdevies nogādāt tehniku ​​uz mājām un iedibināt jaunus darba procesus. Es dodu viņam vārdu.

— Kad jums ir bezgalīgi daudz laika, jūs varat ērti pārvietoties jebkurā vietā ar jebko. Taču koronavīrusa straujā izplatība mūs ir nostādījusi pavisam citos apstākļos. Yandex darbinieki bija vieni no pirmajiem, kas pārgāja uz attālināto darbu – pat pirms pašizolācijas režīma ieviešanas. Tas notika šādi. Ceturtdien, 12. martā, man lūdza izvērtēt iespēju pārcelt kolektīva darbus uz mājām. Piektdien, 13. datumā, parādījās ieteikums pāriet uz attālināto darbu. Naktī uz otrdienu, 17.martu, mums viss bija sagatavots: dežurējošie strādāja no mājām, tehnika tika transportēta, trūkstošā programmatūra tika uzrakstīta, procesi tika pārkonfigurēti. Un tagad es jums pastāstīšu, kā mēs to panācām. Bet vispirms jums ir jāatceras uzdevumi, kurus risina dežūras maiņa.

Kas mēs esam

Yandex ir liels uzņēmums ar simtiem pakalpojumu. Meklēšanas, balss asistenta un visu citu produktu stabilitāte ir atkarīga ne tikai no izstrādātājiem. Var tikt traucēta strāvas padeve datu centrā. Strādnieks, mainot asfaltu, var nejauši sabojāt optisko kabeli. Vai arī var būt lietotāju aktivitātes pieaugums, izraisot steidzamu nepieciešamību pārdalīt jaudu. Turklāt mēs visi dzīvojam lielā, sarežģītā infrastruktūrā, un viena produkta izlaišana var nejauši izraisīt cita produkta degradāciju.

26 paneļi mūsu atklātajā telpā ir pusotrs tūkstotis brīdinājumu un vairāk nekā simts mūsu pakalpojumu diagrammu un paneļu. Būtībā tas ir milzīgs diagnostikas panelis. Pieredzējis dežurējošais administrators, apskatot tos, var ātri saprast svarīgu komponentu statusu un noteikt tehnoloģiskās problēmas izmeklēšanas virzienu. Tas gan nenozīmē, ka cilvēkam nepārtraukti jāskatās uz visām ierīcēm: uzmanību piesaistīs pati automatizācija, nosūtot paziņojumu uz speciālo dežuranta interfeisu, taču bez vizuālā paneļa problēmas risināšana var aizņemt ilgu laiku.

Ja rodas problēmas, dežurants vispirms izvērtē to prioritāti. Pēc tam tas izolē problēmu vai samazina tās ietekmi uz lietotājiem.

Ir vairāki standarta veidi, kā novērst problēmu. Viens no tiem ir pakalpojumu degradācija, kad dežurējošais administrators atspējo dažas no funkcijām, kuras lietotāji pamana vismazāk. Tas ļauj īslaicīgi samazināt slodzi un noskaidrot, kas noticis. Ja rodas problēma ar datu centru, dežurants sazinās ar operācijas komandu, izprot problēmu, uzrauga tās risināšanas laiku un, ja nepieciešams, iesaista specializētas komandas.

Ja dežūrējošais administrators nevar izolēt problēmu, kas radusies laidiena dēļ, viņš par to ziņo servisa komandai - un izstrādātāji meklē kļūdas jaunajā kodā. Ja viņi to nevar izdomāt, administrators piesaista izstrādātājus no citiem produktiem vai pakalpojumu pieejamības inženierus.

Es varu ilgi runāt par to, kā šeit viss darbojas, bet es domāju, ka es jau esmu izteicis būtību. Dežūru maiņa koordinē visu dienestu darbu un uzrauga globālās problēmas. Dežurējošajam administratoram ir svarīgi, lai diagnostikas panelis būtu viņa acu priekšā. Tāpēc, pārejot uz attālo darbu, jūs nevarat katram dot klēpjdatoru. Diagrammas un brīdinājumi neietilps ekrānā. Ko darīt?

Ideja

Birojā visi desmit dežurējošie administratori strādā maiņās aiz viena paneļa, kurā ir 26 monitori, divi datori, četras NVIDIA Quadro NVS 810 videokartes, divi statīvi montējami nepārtrauktās barošanas avoti un vairākas neatkarīgas tīkla piekļuves. Mums bija jānodrošina, lai ikvienam būtu iespēja strādāt mājās. Dzīvoklī šādu sienu vienkārši nav iespējams samontēt (mana sieva par to būs īpaši priecīga), tāpēc nolēmām izveidot portatīvo versiju, kuru var paņemt līdzi un salikt mājās.

Mēs sākām eksperimentēt ar konfigurāciju. Mums bija jāievieto visas ierīces uz mazāku displeju skaitu, tāpēc galvenā prasība monitoram bija augsts pikseļu blīvums. No mūsu vidē pieejamajiem 4K monitoriem testēšanai izvēlējāmies Lenovo P27u-10.

No klēpjdatoriem mēs paņēmām 16 collu MacBook Pro. Tam ir diezgan jaudīga grafikas apakšsistēma, kas nepieciešama attēlu renderēšanai vairākos 4K displejos, un četri universālie C tipa savienotāji. Jūs varat jautāt: kāpēc ne darbvirsmas? Klēpjdatora nomaiņa pret tieši tādu pašu no noliktavas ir daudz vienkāršāka un ātrāka nekā identiskas sistēmas vienības salikšana un konfigurēšana. Un tas sver mazāk.

Tagad mums vajadzēja saprast, cik daudz monitoru mēs faktiski varētu savienot ar klēpjdatoru. Un problēma šeit nav savienotāju skaitā; mēs to varējām noskaidrot, tikai pārbaudot samontēto sistēmu.

Kā mēs evakuējām Yandex darba maiņu

Testēšana

Mēs diezgan ērti novietojām visas diagrammas un brīdinājumus četros monitoros un pat savienojām tos ar klēpjdatoru, taču radās problēma. 4x4K pikseļu renderēšana pievienotajos monitoros radīja tādu slodzi videokartei, ka klēpjdators tika izlādēts pat uzlādes laikā. Par laimi, problēma tika atrisināta, izmantojot Lenovo ThinkPad Thunderbolt 3 Dock Gen 2. Man bija iespēja pieslēgt monitoru, barošanas avotu un pat savu iecienītāko peli un tastatūru pie dokstacijas.

Taču uzreiz parādījās vēl viena problēma: GPU tik ļoti čaukstējās, ka klēpjdators pārkarsa, kas nozīmē, ka pārkarsa arī akumulators, kas rezultātā pārgāja aizsargrežīmā un pārstāja pieņemt lādiņu. Kopumā šis ir ļoti noderīgs režīms, kas pasargā no bīstamām situācijām. Dažos gadījumos problēma tika atrisināta ar augsto tehnoloģiju ierīces palīdzību - zem klēpjdatora novietotu lodīšu pildspalvu, lai uzlabotu ventilāciju. Bet tas nepalīdzēja visiem, tāpēc mēs arī palielinājām standarta ventilatora ātrumu.

Bija vēl viena nepatīkama iezīme. Visām diagrammām un brīdinājumiem ir jāatrodas stingri noteiktā vietā. Iedomājieties, ka pilotējat lidmašīnu, lai nolaistos — un tad ātruma rādītāji, altimetri, variometri, attieksmes indikatori, kompasi un pozīcijas indikatori sāk mainīt izmēru un lēkt uz dažādām vietām. Tāpēc mēs nolēmām izveidot lietojumprogrammu, kas palīdzēs šajā jautājumā. Vienā vakarā ierakstījām Electron.js, paņemot gatavu API par logu izveidi un pārvaldību. Mēs pievienojām konfigurācijas procesoru un to periodisko atjaunināšanu, kā arī atbalstu ierobežotam monitoru skaitam. Nedaudz vēlāk viņi pievienoja atbalstu dažādiem iestatījumiem.

Montāža un piegāde

Līdz pirmdienai palīdzības dienesta burvji mums bija sagādājuši 40 monitorus, desmit klēpjdatorus un tikpat daudz dokstaciju. Es nezinu, kā viņiem tas izdevās, bet liels paldies viņiem.

Kā mēs evakuējām Yandex darba maiņu

Atlika tikai to visu nogādāt dežurējošu administratoru dzīvokļos. Un tās ir desmit adreses dažādās Maskavas daļās: dienvidos, austrumos, centrā un arī Balašihā, kas atrodas 45 kilometrus no biroja (starp citu, vēlāk tika pievienots praktikants no Serpuhovas). Vajadzēja kaut kā to visu sadalīt starp cilvēkiem, veidot loģistiku.

Visas adreses ievadīju mūsu Maps, vēl ir iespēja optimizēt maršrutu starp dažādiem punktiem (izmantoju kurjeriem paredzētā rīka bezmaksas beta versiju). Savu komandu sadalījām četrās neatkarīgās komandās pa diviem cilvēkiem, katra ar savu maršrutu. Mans auto izrādījās ietilpīgākais, tāpēc ņēmu ekipējumu uzreiz četriem darbiniekiem.

Kā mēs evakuējām Yandex darba maiņu

Visa piegāde aizņēma rekordlielas trīs stundas. Pirmdienas vakarā mēs izgājām no biroja desmitos. Vienos naktī es jau biju mājās. Tajā pašā vakarā devāmies dežūrēt ar jaunu ekipējumu.

Kā rezultātā

Vienas lielas diagnostikas pults vietā katra dežurējošā dzīvoklī salikām desmit salīdzinoši pārnēsājamas. Protams, vēl bija dažas detaļas, kas jāsakārto. Piemēram, mums kādreiz bija viens “dzelzs” telefons dežurantam paziņojumiem. Jaunajos apstākļos tas nedarbojās, tāpēc mēs izdomājām "virtuālos tālruņus" dežurantiem (būtībā kanāli kurjerā). Bija arī citas izmaiņas. Taču galvenais ir tas, ka rekordīsā laikā mums izdevās pārvest uz mājām ne tikai cilvēkus, samazinot viņu inficēšanās risku, bet arī visu savu darbu, nekaitējot procesiem un produkta stabilitātei. Šajā režīmā strādājam jau mēnesi.

Zemāk jūs atradīsiet mūsu dežurantu reālo darba vietu fotogrāfijas.

Kā mēs evakuējām Yandex darba maiņu

Kā mēs evakuējām Yandex darba maiņu

Kā mēs evakuējām Yandex darba maiņu

Kā mēs evakuējām Yandex darba maiņu

Kā mēs evakuējām Yandex darba maiņu

Avots: www.habr.com