Ako sme evakuovali službu Yandex

Ako sme evakuovali službu Yandex

Keď sa práca zmestí do jedného notebooku a dá sa vykonávať autonómne od iných ľudí, potom nie je problém presunúť sa na vzdialené miesto – ráno stačí zostať doma. Ale nie každý má také šťastie.

Pracovnú zmenu tvorí tím špecialistov na dostupnosť služieb (SRE). Zahŕňa správcov povinností, vývojárov, manažérov, ako aj spoločný „dashboard“ s 26 LCD panelmi s uhlopriečkou 55 palcov. Stabilita služieb spoločnosti a rýchlosť riešenia problémov závisia od práce brigády.

Dnes Dmitrij Melikov tal10n, vedúci zmeny v službe porozpráva o tom, ako sa im v priebehu niekoľkých dní podarilo dopraviť techniku ​​do svojich domovov a zaviesť nové pracovné postupy. Dávam mu slovo.

- Keď máte nekonečnú zásobu času, môžete sa pohodlne pohybovať s čímkoľvek kdekoľvek. Rýchle šírenie koronavírusu nás však dostalo do úplne iných podmienok. Zamestnanci spoločnosti Yandex boli medzi prvými, ktorí prešli na prácu na diaľku, ešte pred zavedením režimu vlastnej izolácie. Stalo sa to takto. Vo štvrtok 12. marca som bol požiadaný o vyhodnotenie možnosti presunu práce tímu domov. V piatok 13-teho prišlo odporúčanie prejsť na prácu na diaľku. V utorok 17. marca v noci bolo pre nás všetko pripravené: obsluha doma pracovala, zariadenie sa presťahovalo, dopísal sa chýbajúci softvér, prestavili sa procesy. A teraz vám poviem, ako sa nám to podarilo. Najprv si však musíte spomenúť na úlohy, ktoré rieši služobná zmena.

Kto sme

Yandex je veľká spoločnosť so stovkami služieb. Stabilita vyhľadávania, hlasového asistenta a všetkých ostatných produktov závisí nielen od vývojárov. V dátovom centre môže byť prerušené napájanie. Pracovník pri výmene asfaltu môže náhodne poškodiť optický kábel. Alebo môže dôjsť k prudkému nárastu aktivity používateľov, čo si bude vyžadovať urgentné prerozdelenie kapacity. Navyše, všetci žijeme vo veľkej komplexnej infraštruktúre a uvoľnenie jedného z produktov môže náhodne viesť k znehodnoteniu iného.

26 panelov v našom otvorenom priestore predstavuje jeden a pol tisíc upozornení a viac ako sto grafov a panelov našich služieb. V skutočnosti ide o obrovský diagnostický panel. Skúsený správca služby pri pohľade naň rýchlo pochopí stav dôležitých uzlov a môže určiť smer vyšetrovania technologického problému. To neznamená, že by sa človek mal neustále pozerať na všetky zariadenia: samotná automatizácia upúta pozornosť odoslaním upozornenia na špeciálne rozhranie služobného dôstojníka, ale bez vizuálneho panelu môže byť riešenie problému oneskorené.

Keď sa vyskytnú problémy, obsluha najprv vyhodnotí ich prioritu. Potom izoluje problém alebo minimalizuje jeho dopad na používateľov.

Existuje niekoľko štandardných spôsobov, ako izolovať problém. Jednou z nich je degradácia služieb, kedy službukonajúci správca vypína niektoré funkcie, ktoré si užívatelia najmenej všímajú. To vám umožní dočasne znížiť zaťaženie a zistiť, čo sa stalo. Ak sa vyskytne problém s dátovým centrom, sluha kontaktuje operačný tím, porozumie problému, kontroluje načasovanie jeho riešenia a v prípade potreby spojí príslušné tímy.

Keď službukonajúci administrátor nedokáže izolovať problém, ktorý vznikol v dôsledku vydania, nahlási to servisnému tímu – a vývojári hľadajú chyby v novom kóde. Ak sa im to nepodarí zistiť, správca priťahuje vývojárov z iných produktov alebo inžinierov na dostupnosť služieb.

Môžem dlho rozprávať o tom, ako je to u nás všetko zariadené, ale myslím, že podstatu som už sprostredkoval. Pracovná zmena koordinuje prácu všetkých služieb a kontroluje globálne problémy. Pre službukonajúceho správcu je dôležité, aby mal pred očami diagnostický panel. To je dôvod, prečo keď prejdete na prácu na diaľku, nemôžete len tak vziať a dať každému notebook. Grafy a upozornenia sa nezmestia na obrazovku. Čo robiť?

Nápad

V kancelárii všetkých desať správcov v službe pracuje na smeny na tej istej palubnej doske, ktorá zahŕňa 26 monitorov, dva počítače, štyri grafické karty NVIDIA Quadro NVS 810, dva neprerušiteľné zdroje napájania namontované v stojane a niekoľko nezávislých sieťových prístupov. Potrebovali sme zabezpečiť, aby mal každý možnosť pracovať z domu. Zmontovať takúto stenu v byte sa len tak nedá (radosť bude mať najmä moja manželka), preto sme sa rozhodli vytvoriť prenosnú verziu, ktorú si možno priniesť a zložiť doma.

Začali sme experimentovať s konfiguráciou. Všetky zariadenia sme potrebovali umiestniť na menej displejov, takže hlavnou požiadavkou na monitor bola vysoká hustota pixelov. Zo 4K monitorov dostupných v našom prostredí sme na testy vybrali Lenovo P27u-10.

Z notebookov sme zobrali 16-palcový MacBook Pro. Disponuje pomerne výkonným grafickým subsystémom, ktorý je potrebný na vykresľovanie obrazu na niekoľkých 4K displejoch, a štyrmi univerzálnymi konektormi Type-C. Môžete sa opýtať: prečo nie desktop? Výmena notebooku za úplne rovnaký zo skladu je oveľa jednoduchšia a rýchlejšia ako montáž a konfigurácia identickej systémovej jednotky. A áno, váži menej.

Teraz bolo potrebné pochopiť, koľko monitorov vlastne môžeme pripojiť k notebooku. A tu nie je problém v počte konektorov, to by sme mohli zistiť len testovaním systému ako zostavy.

Ako sme evakuovali službu Yandex

Testovanie

Všetky grafy a upozornenia sme pohodlne umiestnili na štyri monitory a dokonca sme ich pripojili k notebooku, no narazili sme na problém. Renderovanie 4×4K pixelov na pripojených monitoroch zaťažilo grafickú kartu natoľko, že sa notebook vybíjal aj počas nabíjania. Našťastie sa problém podarilo vyriešiť pomocou dokovacej stanice Lenovo ThinkPad Thunderbolt 3 Dock Gen 2. Do dokovacej stanice sa nám podarilo pripojiť monitor, napájanie a dokonca aj vašu obľúbenú myš a klávesnicu.

Okamžite sa však objavil ďalší problém: GPU sa nafúklo natoľko, že sa notebook prehrial, čo znamená, že sa prehriala aj batéria, ktorá v dôsledku toho prešla do ochranného režimu a prestala sa nabíjať. Vo všeobecnosti ide o veľmi užitočný režim, ktorý chráni pred nebezpečnými situáciami. V niektorých prípadoch bol problém vyriešený pomocou high-tech zariadenia - guľôčkového pera umiestneného pod notebookom na zlepšenie ventilácie. To ale nepomohlo všetkým, a tak sme zvýšili aj rýchlosť štandardného ventilátora.

Bola tu ešte jedna nepríjemná vlastnosť. Všetky tabuľky a upozornenia musia byť umiestnené na presne vymedzenom mieste. Predstavte si, že pilotujete lietadlo na pristátie – a potom ukazovatele rýchlosti, výškomery, variometre, umelé horizonty, kompasy a ukazovatele polohy začnú meniť veľkosť a poskakovať na rôznych miestach. Preto sme sa rozhodli vytvoriť aplikáciu, ktorá s tým pomôže. Za jeden večer sme to napísali na Electron.js a zobrali sme hotový API na vytváranie a správu okien. Pridali sme obslužný program konfigurácie a ich pravidelnú aktualizáciu, ako aj podporu pre obmedzený počet monitorov. O niečo neskôr pridali podporu pre rôzne nastavenia.

Montáž a dodávka

Do pondelka pre nás sprievodcovia z helpdesku získali 40 monitorov, desať notebookov a rovnaký počet dokovacích staníc. Neviem ako sa im to podarilo, ale veľmi pekne ďakujem.

Ako sme evakuovali službu Yandex

Toto všetko ostávalo doručiť do bytov službukonajúcich správcov. A toto je desať adries v rôznych častiach Moskvy: juh, východ, centrum a tiež Balashikha, ktorá je 45 kilometrov od kancelárie (mimochodom, neskôr sa pridal aj stážista zo Serpuchova). To všetko bolo potrebné nejako rozložiť medzi ľudí, vybudovať logistiku.

Všetky adresy som zadal na naše Mapy, stále je tu možnosť optimalizovať trasu medzi rôznymi bodmi (použil som bezplatnú beta verziu nástroja pre kuriérov). Náš tím sme rozdelili do štyroch nezávislých tímov po dvoch ľuďoch, každý dostal svoju vlastnú trasu. Moje auto sa ukázalo ako najpriestrannejšie, a tak som zobral vybavenie pre štyroch zamestnancov naraz.

Ako sme evakuovali službu Yandex

Celá dodávka trvala rekordné tri hodiny. Z kancelárie sme odchádzali v pondelok o XNUMX:XNUMX. O jednej v noci som už bol doma. V tú istú noc sme išli do služby s novým vybavením.

S tým výsledkom, že

Namiesto jednej veľkej diagnostickej konzoly sme v byte každého dôstojníka zozbierali desať relatívne prenosných. Samozrejme, ešte bolo treba doladiť pár vecí. Napríklad predtým sme mali jeden „železný“ telefón služobného úradníka na notifikácie. V nových podmienkach to nefungovalo, a tak sme prišli s „virtuálnymi telefónmi“ pre tých, ktorí sú v službe (v skutočnosti kanály v messengeri). Došlo aj k ďalším zmenám. Ale hlavné je, že sa nám v rekordnom čase podarilo preniesť nielen ľudí, čím sa znížilo riziko ich infekcie, ale aj všetku našu prácu z domu bez poškodenia procesov a stability produktov. Robíme to už mesiac.

Nižšie nájdete fotografie skutočných prác našich obsluhujúcich.

Ako sme evakuovali službu Yandex

Ako sme evakuovali službu Yandex

Ako sme evakuovali službu Yandex

Ako sme evakuovali službu Yandex

Ako sme evakuovali službu Yandex

Zdroj: hab.com