Hogyan evakuáltuk a Yandex ügyeleti műszakát

Hogyan evakuáltuk a Yandex ügyeleti műszakát

Ha a munka elfér egy laptopban, és másoktól függetlenül is elvégezhető, akkor nem okoz gondot távoli helyre költözni – elég otthon maradni reggel. De nem mindenki ilyen szerencsés.

Az ügyeleti műszak a Service Availability Specialists (SRE) csapata. Tartalmaz ügyeleti rendszergazdákat, fejlesztőket, menedzsereket, valamint egy közös „műszerfalat”, amely 26, egyenként 55 hüvelykes LCD panelből áll. Az ügyeleti műszak munkájától függ a cég szolgáltatásainak stabilitása, a problémák megoldásának gyorsasága.

Ma Dmitrij Melikov tal10n, az ügyeletes műszak vezetője arról fog beszélni, hogyan sikerült néhány nap alatt otthonukba szállítani a felszerelést és új munkafolyamatokat kialakítani. Neki adom a szót.

- Ha végtelen az időd, kényelmesen mozoghatsz bárhol bármivel. A koronavírus gyors terjedése azonban teljesen más körülmények közé hozott bennünket. A Yandex alkalmazottai az elsők között váltottak távmunkára, még az önelszigetelő rendszer bevezetése előtt. Ez így történt. Március 12-én, csütörtökön felkértek, hogy értékeljem a csapat munkájának hazaköltöztetésének lehetőségét. 13-án, pénteken távmunkára való átállásra volt javaslat. Március 17-én, kedd éjjel már minden készen állt a számunkra: otthon dolgoztak a kísérők, mozgatták a berendezéseket, kiírták a hiányzó szoftvereket, átkonfigurálták a folyamatokat. És most elmondom, hogyan csináltuk. De először emlékeznie kell azokra a feladatokra, amelyeket az ügyeleti műszak megold.

Kik vagyunk mi

A Yandex egy nagy cég, több száz szolgáltatással. A keresés, a hangasszisztens és az összes többi termék stabilitása nem csak a fejlesztőktől függ. Az adatközpontban megszakadhat az áramellátás. Az aszfaltcsere során a dolgozó véletlenül megsértheti az optikai kábelt. Vagy megnövekedhet a felhasználói aktivitás, ami a kapacitás sürgős átcsoportosítását teszi szükségessé. Ráadásul mindannyian nagy, összetett infrastruktúrában élünk, és az egyik termék kibocsátása véletlenül egy másik termék leromlásához vezethet.

Nyitott terünk 26 panelje másfél ezer riasztást és több mint száz diagramot és panelt tartalmaz szolgáltatásainkról. Valójában ez egy hatalmas diagnosztikai panel. Egy tapasztalt ügyeleti adminisztrátor ránézésre gyorsan megérti a fontos csomópontok állapotát, és irányt szabhat egy technológiai probléma kivizsgálására. Ez nem azt jelenti, hogy az embernek folyamatosan minden eszközt meg kell néznie: maga az automatizálás hívja fel magára a figyelmet azáltal, hogy értesítést küld az ügyeletes speciális felületére, de vizuális panel nélkül a probléma megoldása késhet.

Probléma esetén a kísérő először értékeli a prioritásukat. Ezután elkülöníti a problémát, vagy minimálisra csökkenti a felhasználókra gyakorolt ​​hatását.

Számos szabványos módszer létezik a probléma elkülönítésére. Az egyik ilyen a szolgáltatások leépülése, amikor az ügyeletes adminisztrátor letilt néhány olyan funkciót, amelyet a felhasználók a legkevésbé vesznek észre. Ez lehetővé teszi, hogy átmenetileg csökkentse a terhelést, és kitalálja, mi történt. Ha probléma adódik az adatközponttal, az ügyeletes felveszi a kapcsolatot az üzemeltetési csoporttal, megérti a problémát, ellenőrzi a megoldás időzítését, és szükség esetén összekapcsolja az érintett csapatokat.

Amikor az ügyeletes adminisztrátor nem tudja elkülöníteni a kiadás miatt felmerült problémát, azt jelenti a szervizcsapatnak – a fejlesztők pedig az új kódban keresik a hibákat. Ha nem sikerül kitalálniuk, akkor az adminisztrátor más termékek fejlesztőit vagy mérnökeit vonzza a szolgáltatások elérhetősége miatt.

Hosszan tudnék mesélni arról, hogy nálunk minden el van intézve, de azt hiszem, a lényeget már elmondtam. Az ügyeleti műszak koordinálja az összes szolgálat munkáját, és kontrollálja a globális problémákat. Az ügyeletes adminisztrátornak fontos, hogy diagnosztikai panel legyen a szeme előtt. Ez az oka annak, hogy amikor távmunkára vált, nem lehet csak úgy venni és adni mindenkinek egy laptopot. A grafikonok és a figyelmeztetések nem férnek el a képernyőn. Mit kell tenni?

Ötlet

Az irodában mind a tíz ügyeletes adminisztrátor váltásban dolgozik ugyanazon a műszerfalon, amely 26 monitort, két számítógépet, négy NVIDIA Quadro NVS 810 videokártyát, két rackbe szerelhető szünetmentes tápegységet és számos független hálózati hozzáférést foglal magában. Biztosítanunk kellett, hogy mindenkinek lehetősége legyen otthonról dolgozni. Egy lakásban egyszerűen nem lehet ilyen falat összerakni (a feleségem kifejezetten örülni fog neki), ezért úgy döntöttünk, hogy elkészítjük a hordozható, otthon is elvihető és összerakható változatot.

Elkezdtünk kísérletezni a konfigurációval. Az összes eszközt kevesebb kijelzőre kellett elhelyezni, így a monitorral szemben a fő követelmény a nagy pixelsűrűség volt. A környezetünkben elérhető 4K monitorok közül a Lenovo P27u-10-et választottuk tesztekhez.

A laptopok közül egy 16 hüvelykes MacBook Pro-t vettünk. Meglehetősen erős grafikus alrendszerrel rendelkezik, amely szükséges a képek megjelenítéséhez több 4K-s kijelzőn, és négy univerzális Type-C csatlakozóval rendelkezik. Felmerülhet a kérdés: miért nem asztali? Egy laptop cseréje pontosan ugyanazzal a raktárból sokkal egyszerűbb és gyorsabb, mint egy azonos rendszeregység összeszerelése és konfigurálása. És igen, kisebb a súlya.

Most azt kellett megérteni, hogy valóban hány monitort tudunk csatlakoztatni egy laptophoz. És itt nem a csatlakozók számával van a probléma, ezt csak a rendszer összeállításban történő tesztelésével tudhattuk meg.

Hogyan evakuáltuk a Yandex ügyeleti műszakát

tesztelés

Kényelmesen elhelyeztük az összes diagramot és figyelmeztetést négy monitoron, és még egy laptophoz is csatlakoztattuk, de problémába ütköztünk. A csatlakoztatott monitorokon 4×4K pixeles renderelés annyira megterhelte a videokártyát, hogy töltés közben is lemerült a laptop. Szerencsére a probléma megoldódott a Lenovo ThinkPad Thunderbolt 3 Dock Gen 2 dokkoló állomás segítségével.A dokkolóállomáshoz sikerült monitort, tápot, sőt kedvenc egerünket és billentyűzetünket is csatlakoztatni.

Ám azonnal felbukkant egy másik probléma is: a GPU akkorát puffant, hogy túlmelegedett a laptop, ami azt jelenti, hogy az akkumulátor is túlmelegedett, ami ennek következtében védő üzemmódba vált és leállt a töltés. Általában ez egy nagyon hasznos mód, amely megvéd a veszélyes helyzetektől. Egyes esetekben a problémát egy csúcstechnológiás eszköz - a szellőzés javítása érdekében a laptop alá helyezett golyóstoll - segítségével oldották meg. De ez nem mindenkinek segített, így a normál ventilátor sebességét is felpörgettük.

Volt még egy kellemetlen vonás. Minden diagramot és figyelmeztetést szigorúan meghatározott helyen kell elhelyezni. Képzeld el, hogy egy repülőgépet vezetsz a leszálláshoz – majd a sebességjelzők, magasságmérők, variométerek, mesterséges horizontok, iránytűk és helyzetjelzők mérete megváltozik, és különböző helyeken ugrálnak. Ezért úgy döntöttünk, hogy készítünk egy alkalmazást, amely segít ebben. Egy este alatt megírtuk az Electron.js-en, készen vettünk API ablakok létrehozásához és kezeléséhez. Hozzáadtunk egy konfigurációkezelőt és azok időszakos frissítését, valamint korlátozott számú monitor támogatását. Kicsit később támogatták a különböző beállításokat.

Összeszerelés és szállítás

Hétfőre a helpdesk varázslói 40 monitort, tíz laptopot és ugyanennyi dokkolóállomást szereztek be nekünk. Nem tudom, hogy csinálták, de nagyon köszönöm.

Hogyan evakuáltuk a Yandex ügyeleti műszakát

Maradt hátra, hogy mindezt az ügyeletes adminisztrátorok lakásaiba szállítsák. És ez tíz cím Moszkva különböző részein: délen, keleten, központban, valamint Balasikhában, amely 45 kilométerre van az irodától (mellesleg később egy szerpuhovi gyakornok is bekerült). Valahogy el kellett mindezt elosztani az emberek között, ki kellett építeni a logisztikát.

Az összes címet beírtam a Térképeinkre, még van lehetőség a különböző pontok közötti útvonal optimalizálására (az eszköz futároknak szánt ingyenes béta verzióját használtam). Csapatunkat négy független, kétfős csapatra osztottuk, mindegyik saját útvonalat kapott. Az én autóm bizonyult a legtágasabbnak, így egyszerre négy alkalmazottnak vittem felszerelést.

Hogyan evakuáltuk a Yandex ügyeleti műszakát

Az egész szállítás rekord három órát vett igénybe. Hétfőn este XNUMX-kor hagytuk el az irodát. Hajnali egy órakor már otthon voltam. Még aznap este új felszereléssel mentünk szolgálatba.

Aminek eredményeképpen a

Egy-egy nagy diagnosztikai konzol helyett tíz viszonylag hordozhatót gyűjtöttünk minden ügyeletes lakásában. Persze volt még egy pár dolgot kisimítani. Például korábban volt egy "vas" telefonunk az ügyeletes tisztnek az értesítésekhez. Az új körülmények között ez nem működött, így az ügyeletesek számára „virtuális telefonokat” találtunk ki (sőt, csatornákat a messengerben). Voltak egyéb változások is. De a lényeg az, hogy rekordidő alatt nemcsak az embereket sikerült átvinnünk, csökkentve ezzel a fertőzés kockázatát, hanem az összes otthonról végzett munkánkat anélkül, hogy károsodnának a folyamatok és a termékstabilitás. Már egy hónapja csináljuk ezt.

Az alábbiakban fotókat találhatsz kísérőink valós munkáiról.

Hogyan evakuáltuk a Yandex ügyeleti műszakát

Hogyan evakuáltuk a Yandex ügyeleti műszakát

Hogyan evakuáltuk a Yandex ügyeleti műszakát

Hogyan evakuáltuk a Yandex ügyeleti műszakát

Hogyan evakuáltuk a Yandex ügyeleti műszakát

Forrás: will.com