Kuinka evakuoimme Yandexin työvuoron

Kuinka evakuoimme Yandexin työvuoron

Kun työ mahtuu yhteen kannettavaan tietokoneeseen ja sen voi tehdä itsenäisesti toisista ihmisistä, ei ole ongelmaa muuttaa etäpaikalle – riittää, että pysyt kotona aamuisin. Mutta kaikki eivät ole niin onnekkaita.

Päivystysvuoro on palvelun saatavuusasiantuntijoiden (SRE) tiimi. Se sisältää päivystäviä järjestelmänvalvojia, kehittäjiä, johtajia sekä yhteisen "kojelaudan", jossa on 26 LCD-paneelia, kukin 55 tuumaa. Yrityksen palveluiden vakaus ja ongelmanratkaisun nopeus riippuvat päivystyksen työstä.

Tänään Dmitri Melikov tal10n, päivystysvuoron johtaja, kertoo kuinka muutamassa päivässä onnistuttiin kuljettamaan laitteet kotiin ja luomaan uusia työprosesseja. Annan hänelle puheenvuoron.

— Kun aikaa on loputtomasti, voit liikkua mukavasti minne tahansa minkä tahansa kanssa. Mutta koronaviruksen nopea leviäminen on asettanut meidät täysin erilaisiin olosuhteisiin. Yandexin työntekijät olivat ensimmäisten joukossa, jotka siirtyivät etätyöhön - jo ennen itseeristysjärjestelmän käyttöönottoa. Se tapahtui näin. Torstaina 12. maaliskuuta minua pyydettiin arvioimaan mahdollisuutta siirtää tiimin työt kotiin. Perjantaina 13. päivänä ilmestyi suositus siirtyä etätyöhön. Tiistai-iltana 17. maaliskuuta meillä oli kaikki valmiina: päivystävät ihmiset työskentelivät kotoa käsin, laitteet kuljetettiin, puuttuvat ohjelmistot kirjoitettiin, prosessit konfiguroitiin uudelleen. Ja nyt kerron sinulle, kuinka onnistuimme. Mutta ensin sinun on muistettava tehtävät, jotka työvuoro ratkaisee.

Keitä me olemme

Yandex on suuri yritys, jolla on satoja palveluita. Haun, ääniavustajan ja kaikkien muiden tuotteiden vakaus ei riipu vain kehittäjistä. Datakeskuksen virransyöttö saattaa olla katkennut. Työntekijä voi vahingossa vahingoittaa optista kaapelia vaihtaessaan asfalttia. Tai käyttäjien aktiivisuus voi lisääntyä, mikä aiheuttaa kiireellisen tarpeen jakaa kapasiteettia uudelleen. Lisäksi elämme kaikki suuressa ja monimutkaisessa infrastruktuurissa, ja yhden tuotteen julkaisu voi vahingossa johtaa toisen tuotteen heikkenemiseen.

Avoimessa tilamme 26 paneelia ovat puolitoista tuhatta hälytystä ja yli sata kaaviota ja paneelia palveluistamme. Pohjimmiltaan tämä on valtava diagnostiikkapaneeli. Kokenut päivystävä järjestelmänvalvoja ymmärtää nopeasti tärkeiden komponenttien tilan niitä katsomalla ja voi määrittää suunnan teknologisen ongelman tutkimiselle. Tämä ei tarkoita, että ihmisen pitäisi jatkuvasti katsoa kaikkia laitteita: itse automaatio herättää huomion lähettämällä ilmoituksen päivystäjän erityiseen käyttöliittymään, mutta ilman visuaalista paneelia ongelman ratkaiseminen voi kestää kauan.

Kun ongelmia ilmenee, päivystäjä arvioi ensin niiden tärkeysjärjestyksen. Sitten se eristää ongelman tai minimoi sen vaikutuksen käyttäjiin.

On olemassa useita tavallisia tapoja eristää ongelma. Yksi niistä on palveluiden huonontuminen, kun päivystävä järjestelmänvalvoja poistaa käytöstä joitain toimintoja, joita käyttäjät vähiten huomaavat. Tämän avulla voit väliaikaisesti vähentää kuormaa ja selvittää, mitä tapahtui. Jos konesalin kanssa ilmenee ongelmia, päivystäjä ottaa yhteyttä käyttöryhmään, ymmärtää ongelman, tarkkailee sen ratkaisemisen ajoitusta ja ottaa tarvittaessa mukaan erikoisryhmiä.

Kun päivystävä järjestelmänvalvoja ei pysty eristämään julkaisusta johtuvaa ongelmaa, hän raportoi siitä huoltotiimille - ja kehittäjät etsivät virheitä uudesta koodista. Jos he eivät ymmärrä sitä, järjestelmänvalvoja houkuttelee kehittäjiä muista tuotteista tai palvelun saatavuudesta.

Voin puhua pitkään siitä, miten kaikki toimii täällä, mutta mielestäni olen jo kertonut olemuksen. Päivystys koordinoi kaikkien palveluiden työtä ja seuraa globaaleja ongelmia. Päivystävän pääkäyttäjän on tärkeää, että diagnoosipaneeli on hänen silmiensä edessä. Siksi etätyöhön siirtyessä ei voi antaa kaikille vain kannettavaa tietokonetta. Kaaviot ja hälytykset eivät mahdu näytölle. Mitä tehdä?

Ajatus

Toimistossa kaikki kymmenen päivystävää pääkäyttäjää työskentelevät vuorotellen yhden kojelaudan takana, joka sisältää 26 näyttöä, kaksi tietokonetta, neljä NVIDIA Quadro NVS 810 -näytönohjainta, kaksi telineeseen asennettavaa keskeytymätöntä virtalähdettä ja useita itsenäisiä verkkoyhteyksiä. Meidän piti varmistaa, että kaikilla on mahdollisuus työskennellä kotona. Tällaista seinää ei yksinkertaisesti ole mahdollista koota asuntoon (vaimoni on erityisen iloinen tästä), joten päätimme luoda kannettavan version, joka voidaan tuoda ja koota kotona.

Aloimme kokeilla kokoonpanoa. Kaikki laitteet piti sovittaa harvemmille näytöille, joten näytön päävaatimus oli korkea pikselitiheys. Ympäristössämme saatavilla olevista 4K-näytöistä valitsimme testattavaksi Lenovo P27u-10:n.

Kannettavista otimme 16 tuuman MacBook Pron. Siinä on melko tehokas grafiikkaalijärjestelmä, joka tarvitaan kuvien renderöimiseen useilla 4K-näytöillä, ja neljä yleistä Type-C-liitintä. Saatat kysyä: miksi ei työpöytä? Kannettavan tietokoneen vaihtaminen täsmälleen samaan varastosta on paljon helpompaa ja nopeampaa kuin identtisen järjestelmäyksikön kokoaminen ja konfigurointi. Ja painaa vähemmän.

Nyt meidän piti ymmärtää, kuinka monta näyttöä voisimme todella yhdistää kannettavaan tietokoneeseen. Eikä ongelma tässä ole liittimien määrä, vaan se selviää vain testaamalla koottu järjestelmää.

Kuinka evakuoimme Yandexin työvuoron

Testaus

Sijoitimme melko mukavasti kaikki kaaviot ja hälytykset neljälle näytölle ja jopa liitimme ne kannettavaan tietokoneeseen, mutta törmäsimme ongelmaan. 4x4K-pikseleiden renderöiminen liitetyillä näytöillä rasittaa näytönohjainta niin paljon, että kannettava tietokone tyhjeni jopa latauksen aikana. Onneksi ongelma ratkesi Lenovo ThinkPad Thunderbolt 3 Dock Gen 2 -telakan avulla. Sain kytkeä telakointiasemaan näytön, virtalähteen ja jopa suosikkihiiren ja -näppäimistön.

Mutta toinen ongelma ilmaantui heti: GPU jyskytti niin paljon, että kannettava tietokone ylikuumeni, mikä tarkoittaa, että myös akku ylikuumeni, mikä tämän seurauksena meni suojatilaan ja lakkasi vastaanottamasta latausta. Yleensä tämä on erittäin hyödyllinen tila, joka suojaa vaarallisilta tilanteilta. Joissakin tapauksissa ongelma ratkaistiin korkean teknologian laitteella - kannettavan tietokoneen alle sijoitettu kuulakärkikynä ilmanvaihdon parantamiseksi. Mutta tämä ei auttanut kaikkia, joten nostimme myös vakiotuulettimen nopeutta.

Oli vielä yksi epämiellyttävä ominaisuus. Kaikki kaaviot ja hälytykset on sijaittava tarkasti määritellyssä paikassa. Kuvittele, että ohjaat konetta laskeutumaan - ja sitten nopeusmittarit, korkeusmittarit, variometrit, asentoilmaisimet, kompassit ja sijaintiosoittimet alkavat muuttaa kokoa ja hypätä eri paikkoihin. Joten päätimme tehdä sovelluksen, joka auttaa tässä. Eräänä iltana kirjoitimme sen Electron.js:ssä ottamalla valmiin kuvan API ikkunoiden luomiseen ja hallintaan. Lisäsimme konfigurointiprosessorin ja niiden säännölliset päivitykset sekä tuen rajoitetulle määrälle näyttöjä. Hieman myöhemmin he lisäsivät tuen erilaisille asetuksille.

Kokoaminen ja toimitus

Maanantaihin mennessä helpdeskin velhot olivat hankkineet meille 40 näyttöä, kymmenen kannettavaa tietokonetta ja saman verran telakointiasemia. En tiedä kuinka he onnistuivat siinä, mutta kiitos heille paljon.

Kuinka evakuoimme Yandexin työvuoron

Jäljelle jäi vain toimittaminen päivystävän isännöitsijän asunnoille. Ja nämä ovat kymmenen osoitetta Moskovan eri osissa: etelässä, idässä, keskustassa ja myös Balashikhassa, joka on 45 kilometrin päässä toimistosta (muuten, myöhemmin lisättiin Serpukhovin harjoittelija). Tämä kaikki piti jotenkin jakaa ihmisten kesken, rakentaa logistiikkaa.

Annoin kaikki osoitteet karttoihin, vielä on mahdollisuus optimoida reitti eri pisteiden välillä (käytin työkalun ilmaista beta-versiota kuriireille). Jaoimme tiimimme neljään itsenäiseen kahden hengen tiimiin, jokaisella on oma reittinsä. Autoni osoittautui tilavimmaksi, joten otin varusteet neljälle työntekijälle kerralla.

Kuinka evakuoimme Yandexin työvuoron

Koko toimitus kesti ennätykselliset kolme tuntia. Lähdimme toimistolta kymmeneltä maanantai-iltana. Kello yhdeltä aamulla olin jo kotona. Samana iltana menimme päivystykseen uusilla laitteilla.

Sillä seurauksella, että

Kokosimme yhden suuren diagnoosikonsolin tilalle kymmenen suhteellisen kannettavaa jokaisen päivystävän asuntoon. Tietysti oli vielä joitain yksityiskohtia selvitettävänä. Meillä oli esimerkiksi yksi "rautainen" puhelin päivystäjälle ilmoituksia varten. Tämä ei toiminut uusissa olosuhteissa, joten keksimme "virtuaaliset puhelimet" päivystäjälle (lähinnä sanansaattajan kanavat). Muitakin muutoksia tuli. Mutta tärkeintä on, että onnistuimme ennätysajassa siirtämään paitsi ihmisiä vähentäen heidän tartuntariskiään, myös kaiken työmme kotiin vahingoittamatta prosesseja ja tuotteen vakautta. Olemme työskennelleet tässä tilassa nyt kuukauden.

Alta löydät kuvia päivystäjämme oikeista työpaikoista.

Kuinka evakuoimme Yandexin työvuoron

Kuinka evakuoimme Yandexin työvuoron

Kuinka evakuoimme Yandexin työvuoron

Kuinka evakuoimme Yandexin työvuoron

Kuinka evakuoimme Yandexin työvuoron

Lähde: will.com