Kuidas me Yandexi töövahetusest evakueerisime

Kuidas me Yandexi töövahetusest evakueerisime

Kui töö mahub ühte sülearvutisse ja seda saab teha iseseisvalt teistest inimestest, siis pole probleemi kaugemasse kohta kolida – lihtsalt hommikuti kodus olla. Kuid mitte kõigil pole nii vedanud.

Valvevahetus on teenuse kättesaadavuse spetsialistide (SRE) meeskond. See hõlmab tööülesannete administraatoreid, arendajaid, juhte ja ühist armatuurlauda, ​​mis koosneb 26 LCD-paneelist, igaüks 55 tolli. Töövahetuse tööst sõltub ettevõtte teenuste stabiilsus ja probleemide lahendamise kiirus.

Täna Dmitri Melikov tal10n, valvevahetuse juhataja, räägib, kuidas päevadega õnnestus varustus koju vedada ja uued tööprotsessid paika panna. Annan talle sõna.

— Kui aega on lõputult, saad mugavalt liikuda ükskõik millega. Koronaviiruse kiire levik on aga pannud meid hoopis teistsugustesse tingimustesse. Yandexi töötajad olid esimeste seas, kes läksid kaugtööle üle – juba enne isolatsioonirežiimi kehtestamist. See juhtus nii. Neljapäeval, 12. märtsil paluti mul hinnata meeskonna töö kojukolimise võimalust. Reedel, 13., ilmus soovitus minna üle kaugtööle. Ööl vastu teisipäeva, 17. märtsi oli meil kõik valmis: valves olnud inimesed kodust tööl, tehnika veetud, puuduv tarkvara kirjutatud, protsessid ümber seadistatud. Ja nüüd ma räägin teile, kuidas meil see õnnestus. Kuid kõigepealt peate meeles pidama ülesandeid, mida töövahetus lahendab.

Kes me oleme

Yandex on sadade teenustega suurettevõte. Otsingu, häälassistendi ja kõigi muude toodete stabiilsus ei sõltu ainult arendajatest. Andmekeskuse toiteallikas võib olla häiritud. Töötaja võib asfaldi vahetamisel optilist kaablit kogemata kahjustada. Või võib esineda kasutajate aktiivsuse hüppeline tõus, mis põhjustab tungivat vajadust võimsust ümber jaotada. Pealegi elame kõik suures ja keerulises infrastruktuuris ning ühe toote väljalaskmine võib kogemata kaasa tuua teise toote halvenemise.

26 paneeli meie avatud ruumis on poolteist tuhat hoiatust ja enam kui sada meie teenuste diagrammi ja paneeli. Põhimõtteliselt on see tohutu diagnostikapaneel. Kogenud valves olev administraator saab seda vaadates kiiresti aru oluliste komponentide olekust ja saab suunata tehnoloogilise probleemi uurimisele. See ei tähenda, et inimene peaks pidevalt kõiki seadmeid vaatama: automaatika ise tõmbab tähelepanu, saates teate valveametniku spetsiaalsele liidesele, kuid ilma visuaalse paneelita võib probleemi lahendamine võtta kaua aega.

Probleemide ilmnemisel hindab korrapidaja esmalt nende prioriteetsust. Seejärel isoleerib see probleemi või minimeerib selle mõju kasutajatele.

Probleemi eraldamiseks on mitu standardset viisi. Üks neist on teenuste halvenemine, kui valves olev administraator keelab mõned funktsioonid, mida kasutajad kõige vähem märkavad. See võimaldab ajutiselt koormust vähendada ja aru saada, mis juhtus. Kui andmekeskusega tekib probleem, võtab korrapidaja ühendust operatiivmeeskonnaga, saab probleemist aru, jälgib selle lahendamise ajastust ja vajadusel kaasab spetsialiseeritud meeskondi.

Kui valves olev administraator ei suuda väljalaske tõttu tekkinud probleemi isoleerida, teatab ta sellest teenindusmeeskonnale – ja arendajad otsivad uues koodis vigu. Kui nad sellest aru ei saa, meelitab administraator teiste toodete arendajaid või teenuse kättesaadavuse insenere.

Ma võin pikalt rääkida, kuidas siin kõik toimib, kuid arvan, et olen olemuse juba edasi andnud. Töövahetus koordineerib kõigi talituste tööd ja jälgib globaalseid probleeme. Valvehalduril on oluline, et diagnostikapaneel oleks silme ees. Seetõttu ei saa kaugtööle üleminekul kõigile sülearvutit anda. Diagrammid ja hoiatused ei mahu ekraanile. Mida teha?

Mõte

Kontoris töötavad kõik kümme valves olevat administraatorit vahetustega ühe armatuurlaua taga, kuhu kuuluvad 26 monitori, kaks arvutit, neli NVIDIA Quadro NVS 810 videokaarti, kaks rack-mountitavat katkematut toiteallikat ja mitu sõltumatut võrgujuurdepääsu. Meil oli vaja tagada, et kõigil oleks võimalus kodus töötada. Sellist seina pole lihtsalt võimalik korteris kokku panna (mu naine rõõmustab selle üle eriti), seetõttu otsustasime luua kaasaskantava versiooni, mida saab koju kaasa võtta ja kokku panna.

Hakkasime konfiguratsiooniga katsetama. Meil oli vaja kõik seadmed mahutada vähemale ekraanile, seega oli monitori põhinõue kõrge pikslitihedus. Meie keskkonnas saadaolevatest 4K monitoridest valisime testimiseks Lenovo P27u-10.

Sülearvutitest võtsime 16-tollise MacBook Pro. Sellel on üsna võimas graafika alamsüsteem, mis on vajalik piltide renderdamiseks mitmel 4K-ekraanil, ja neli universaalset C-tüüpi pistikut. Võite küsida: miks mitte töölaud? Sülearvuti asendamine täpselt samasuguse vastu laost on palju lihtsam ja kiirem kui identse süsteemiüksuse kokkupanek ja seadistamine. Ja see kaalub vähem.

Nüüd pidime mõistma, kui palju monitore saaksime sülearvutiga tegelikult ühendada. Ja siin ei ole probleem pistikute arvus, selle saime teada ainult kokkupandud süsteemi testides.

Kuidas me Yandexi töövahetusest evakueerisime

Katsetamine

Panime üsna mugavalt kõik graafikud ja märguanded neljale monitorile ja ühendasime need isegi sülearvutiga, kuid meil tekkis probleem. Ühendatud monitoridel 4x4K pikslite renderdamine pani videokaardile nii suure koormuse, et sülearvuti tühjenes isegi laadimise ajal. Õnneks lahenes probleem Lenovo ThinkPad Thunderbolt 3 Dock Gen 2 abiga. Sain dokkimisjaamaga ühendada monitori, toiteallika ja isegi oma lemmikhiire ja klaviatuuri.

Kuid kohe ilmnes veel üks probleem: GPU vulises nii palju, et sülearvuti kuumenes üle, mis tähendab, et ka aku kuumenes üle, mis selle tulemusena läks kaitserežiimi ja lõpetas laadimise. Üldiselt on see väga kasulik režiim, mis kaitseb ohtlike olukordade eest. Mõnel juhul õnnestus probleem lahendada kõrgtehnoloogilise seadme abil - sülearvuti alla asetatud pastapliiats, mis parandas ventilatsiooni. Kuid see ei aidanud kõiki, nii et suurendasime ka tavalise ventilaatori kiirust.

Üks ebameeldiv omadus oli veel. Kõik diagrammid ja hoiatused peavad asuma rangelt määratletud kohas. Kujutage ette, et juhite lennukit maandumiseks – ja siis hakkavad kiirusnäidikud, kõrgusemõõtjad, variomeetrid, asendinäitajad, kompassid ja asukohanäitajad suurust muutma ja hüppama erinevatesse kohtadesse. Seetõttu otsustasime teha rakenduse, mis aitab selles. Ühe õhtuga kirjutasime selle Electron.js'is valmis, võttes API akende loomise ja haldamise kohta. Lisasime konfiguratsiooniprotsessori ja nende perioodilise värskendamise, samuti toe piiratud arvule monitoridele. Veidi hiljem lisasid nad erinevate seadistuste toe.

Kokkupanek ja kohaletoimetamine

Esmaspäevaks olid abilaua võlurid hankinud meile 40 monitori, kümme sülearvutit ja sama palju dokkimisjaamu. Ma ei tea, kuidas nad sellega hakkama said, aga tänan neid väga.

Kuidas me Yandexi töövahetusest evakueerisime

Ei jäänud muud üle kui see kõik valves olevate administraatorite korteritesse toimetada. Ja need on kümme aadressi Moskva erinevates osades: lõunas, idas, kesklinnas ja ka Balašikhas, mis asub kontorist 45 kilomeetri kaugusel (muide, hiljem lisati Serpuhhovist praktikant). Seda kõike oli vaja kuidagi inimeste vahel ära jagada, logistikat üles ehitada.

Sisestasin kõik aadressid meie Mapsi, on veel võimalus erinevate punktide vahel marsruuti optimeerida (kasutasin kulleritele mõeldud tööriista tasuta beetaversiooni). Jagasime oma meeskonna neljaks iseseisvaks kaheliikmeliseks meeskonnaks, millest igaühel oli oma marsruut. Minu auto osutus kõige ruumikamaks, nii et võtsin varustust korraga neljale töötajale.

Kuidas me Yandexi töövahetusest evakueerisime

Kogu sünnitus kestis rekordilised kolm tundi. Esmaspäeva õhtul lahkusime kontorist kell kümme. Kell üks öösel olin juba kodus. Samal õhtul läksime uue tehnikaga valvesse.

Mille tulemusena

Ühe suure diagnostikapuldi asemel panime iga valves oleva inimese korterisse kokku kümme suhteliselt teisaldatavat. Muidugi jäi veel detaile klaarima. Näiteks oli meil varem teavituste jaoks üks “raudne” telefon korrapidajal. See uutes tingimustes ei toiminud, nii et mõtlesime välja valveametnike jaoks "virtuaalsed telefonid" (sisuliselt sõnumitooja kanalid). Muudatusi oli ka teisi. Kuid peamine on see, et rekordajaga õnnestus meil viia mitte ainult inimesed, vähendades nende nakatumise ohtu, vaid kogu meie töö koju, kahjustamata protsesse ja toote stabiilsust. Oleme selles režiimis töötanud juba kuu aega.

Altpoolt leiate fotod meie valveametnike tegelikest töökohtadest.

Kuidas me Yandexi töövahetusest evakueerisime

Kuidas me Yandexi töövahetusest evakueerisime

Kuidas me Yandexi töövahetusest evakueerisime

Kuidas me Yandexi töövahetusest evakueerisime

Kuidas me Yandexi töövahetusest evakueerisime

Allikas: www.habr.com