Hoe wy evakuearre de Yandex plicht shift

Hoe wy evakuearre de Yandex plicht shift

As wurk yn ien laptop past en autonoom kin wurde dien fan oare minsken, dan is d'r gjin probleem om nei in ôfstân te ferpleatsen - gewoan moarns thús bliuwe. Mar net elkenien is sa gelok.

De oprop-shift is in team fan spesjalisten foar tsjinstbeskikberens (SRE's). It omfettet plichtbehearders, ûntwikkelders, managers, lykas in mienskiplik "dashboard" fan 26 LCD-panielen fan elk 55 inch. De stabiliteit fan 'e tsjinsten fan it bedriuw en de snelheid fan it oplossen fan problemen binne ôfhinklik fan it wurk fan' e tsjinstferliening.

Hjoed Dmitry Melikov tal10n, de manager fan 'e tsjinstferliening, sil prate oer hoe't se yn in kwestje fan dagen it slagge om apparatuer nei har hûs te ferfieren en nije wurkprosessen te fêstigjen. Ik jou him it wurd.

- As jo ​​in einleaze oanbod fan tiid hawwe, kinne jo noflik oeral mei alles ferpleatse. Mar de rappe fersprieding fan it coronavirus hat ús yn folslein oare omstannichheden set. Yandex-meiwurkers wiene ûnder de earsten dy't oerskeakele nei wurk op ôfstân - sels foar de ynfiering fan it selsisolaasjeregime. It barde sa. Op tongersdei 12 maart waard my frege om de mooglikheid te evaluearjen om it wurk fan it team nei hûs te ferpleatsen. Op freed de 13e ferskynde in oanbefelling om oer te skeakeljen nei wurk op ôfstân. Yn de nacht fan tiisdei 17 maart hienen we alles klear: de tsjinstplichtigen wurken fan hûs út, de apparatuer waard ferfierd, de ûntbrekkende software waard skreaun, de prosessen waarden wer ynsteld. En no sil ik jo fertelle hoe't wy it helle hawwe. Mar earst moatte jo ûnthâlde de taken dy't de plicht shift oplost.

Wa binne wy

Yandex is in grut bedriuw mei hûnderten tsjinsten. De stabiliteit fan sykjen, stimassistent en alle oare produkten hinget net allinich ôf fan 'e ûntwikkelders. De stroomfoarsjenning yn it datasintrum kin fersteurd wurde. In arbeider kin by ûngelok in optyske kabel beskeadigje by it ferfangen fan asfalt. Of d'r kin in tanimming wêze yn brûkersaktiviteit, wêrtroch in driuwende needsaak is om kapasiteit te realisearjen. Boppedat libje wy allegear yn grutte, komplekse ynfrastruktuer, en de frijlitting fan ien produkt kin by ûngelok liede ta de degradaasje fan in oar.

26 panielen yn ús iepen romte binne ien en in heal tûzen warskôgings en mear as hûndert diagrammen en panielen fan ús tsjinsten. Yn essinsje is dit in enoarm diagnostykpaniel. In betûfte behearder op plicht kin de status fan wichtige komponinten fluch begripe troch it te sjen en kin de rjochting ynstelle foar it ûndersykjen fan in technologysk probleem. Dit betsjut net dat in persoan hieltyd nei alle apparaten moat sjen: de automatisearring sels sil oandacht lûke troch in notifikaasje te stjoeren nei de spesjale ynterface fan 'e tsjinstoffisier, mar sûnder in fisueel paniel kin it oplossen fan it probleem lang duorje.

As problemen ûntsteane, evaluearret de tsjinstoffisier earst har prioriteit. It isolearret dan it probleem of minimalisearret de ynfloed op brûkers.

D'r binne ferskate standert manieren om it probleem te isolearjen. Ien fan har is degradaasje fan tsjinsten, as de tsjinstbehearder guon fan 'e funksjes útskeakele dy't brûkers it minst opmerke. Hjirmei kinne jo de lading tydlik ferminderje en útfine wat der bard is. As der in probleem ûntstiet mei it datasintrum, nimt de tsjinstoffisier kontakt op mei it operaasjeteam, begrypt it probleem, kontrolearret de timing fan har oplossing en belûkt, as nedich, spesjalisearre teams.

As de tsjinstbehearder in probleem dat ûntstien is troch in frijlitting net kin isolearje, meldt hy it oan it tsjinstteam - en de ûntwikkelders sykje nei flaters yn 'e nije koade. As se it net kinne útfine, dan lûkt de behearder ûntwikkelders fan oare produkten of yngenieurs foar beskikberens fan tsjinsten.

Ik kin lang prate oer hoe't alles hjir wurket, mar ik tink dat ik de essinsje al oerbrocht haw. De duty shift koördinearret it wurk fan alle tsjinsten en kontrolearret globale problemen. It is wichtich foar de tsjinstbehearder om it diagnoazepaniel foar de eagen te hawwen. Dêrom kinne jo, as jo oerstappe nei wurk op ôfstân, net allinich in laptop jaan. Charts en warskôgings passe net op it skerm. Wat te dwaan?

Idea

Op it kantoar wurkje alle tsien bestjoerders yn tsjinst yn ferskowings efter ien dashboard, dat omfettet 26 monitors, twa kompjûters, fjouwer NVIDIA Quadro NVS 810-fideokaarten, twa rack-mount uninterruptible power supplies en ferskate ûnôfhinklike netwurk tagongen. Wy moasten derfoar soargje dat elkenien de kâns hie om thús te wurkjen. It is gewoan net mooglik om sa'n muorre yn in appartemint te sammeljen (myn frou sil hjir benammen bliid wêze), dus besletten wy in draachbere ferzje te meitsjen dy't thús brocht en gearstald wurde kin.

Wy begûnen te eksperimintearjen mei de konfiguraasje. Wy moasten alle apparaten op minder byldskermen passe, dus de wichtichste eask foar de monitor wie in hege pikseltichtens. Fan 'e 4K-monitors dy't beskikber binne yn ús omjouwing, hawwe wy de Lenovo P27u-10 keazen foar testen.

Fan laptops namen wy in 16-inch MacBook Pro. It hat in frij krêftich grafysk subsysteem, nedich foar it werjaan fan ôfbyldings op ferskate 4K-displays, en fjouwer universele Type-C-ferbiningen. Jo kinne freegje: wêrom net buroblêd? It ferfangen fan in laptop mei krekt deselde ien fan in pakhús is folle makliker en flugger dan it sammeljen en konfigurearjen fan in identike systeemienheid. En it waacht minder.

No moasten wy begripe hoefolle monitors wy eins kinne ferbine mei de laptop. En it probleem hjir is net it oantal ferbiningen; wy koene dit allinich útfine troch it gearstalde systeem te testen.

Hoe wy evakuearre de Yandex plicht shift

Testing

Wy pleatsten alle diagrammen en warskôgings frij noflik op fjouwer monitors en hawwe se sels ferbûn oan in laptop, mar wy rûnen yn in probleem. It werjaan fan 4x4K piksels op ferbûne monitors sette sa'n spanning op 'e fideokaart dat de laptop sels ûnder it opladen waard ôfwettere. Gelokkich waard it probleem oplost mei help fan de Lenovo ThinkPad Thunderbolt 3 Dock Gen 2. Ik koe ferbine in monitor, Netzteil, en sels myn favorite mûs en toetseboerd oan it docking stasjon.

Mar in oar probleem dûkte fuortendaliks op: de GPU sloech sa folle dat de laptop oerferhitte, wat betsjut dat de batterij ek oerferhitte, dy't as gefolch yn beskermjende modus gie en stoppe mei it akseptearjen fan lading. Yn 't algemien is dit in heul nuttige modus dy't beskermet tsjin gefaarlike situaasjes. Yn guon gefallen, it probleem waard oplost mei help fan in high-tech apparaat - in balpen pinne pleatst ûnder de laptop te ferbetterjen fentilaasje. Mar dit hat net elkenien holpen, dus wy draaiden ek de snelheid fan de standert fan.

Der wie noch ien onaangename eigenskip. Alle diagrammen en warskôgings moatte lizze op in strikt definiearre plak. Stel jo foar dat jo in fleantúch pilotearje om te lânjen - en dan begjinne snelheidsindikatoren, hichtemeters, variometers, hâldingsindikatoaren, kompassen en posysje-yndikatoaren grutte te feroarjen en nei ferskate plakken te springen. Dat wy besletten om in applikaasje te meitsjen dy't hjirmei helpt. Yn ien jûn we skreau it yn Electron.js, nimme in ready-made API oer it meitsjen en behearen fan finsters. Wy hawwe in konfiguraasjeprosessor tafoege en har periodike fernijing, lykas stipe foar in beheind oantal monitors. In bytsje letter tafoege se stipe foar ferskate opset.

Gearstalling en levering

Moandei hiene de tsjoenders fan de helpdesk 40 monitors, tsien laptops en itselde oantal dockingstasjons foar ús krigen. Ik wit net hoe't se it slagge, mar tige tank.

Hoe wy evakuearre de Yandex plicht shift

It bliuwt allinnich om it allegear by de apparteminten fan de tsjinstferlieners te leverjen. En dit binne tsien adressen yn ferskate dielen fan Moskou: súd, east, sintrum, en ek Balashikha, dat is 45 kilometer fan it kantoar (troch de wei, letter waard tafoege in stazjêre út Serpukhov). It wie nedich om dit alles op ien of oare manier te ferdielen tusken minsken, om logistyk te bouwen.

Ik haw alle adressen op ús Maps ynfierd, d'r is noch in kâns om de rûte tusken ferskate punten te optimalisearjen (ik brûkte de fergese beta-ferzje fan it ark foar koeriers). Wy hawwe ús team ferdield yn fjouwer selsstannige teams fan twa minsken, elk mei in eigen rûte. Myn auto blykte de meast romme te wêzen, dus ik naam apparatuer foar fjouwer meiwurkers tagelyk.

Hoe wy evakuearre de Yandex plicht shift

De hiele levering duorre trije oeren rekord. We giene moandeitejûn om tsienen út it kantoar. Om ien oere moarns wie ik al thús. Dyselde nacht gienen wy mei nij materieel op tsjinst.

Wat op 'e ein

Yn stee fan ien grutte diagnostyske konsole, hawwe wy tsien relatyf draachbere gearstald yn it appartemint fan elke persoan op plicht. Fansels wiene der noch wat details te sortearjen. Bygelyks, wy hienen eartiids ien "izeren" tillefoan foar de tsjinstoffisier foar notifikaasjes. Dit wurke net yn 'e nije betingsten, dus wy kamen mei "firtuele tillefoans" foar tsjinstoffisieren (yn essinsje, kanalen yn 'e messenger). Der wiene ek oare feroarings. Mar it wichtichste is dat wy yn rekordtiid net allinich minsken oerdrage, it ferminderjen fan it risiko fan har ynfeksje, mar al ús wurk nei hûs sûnder skea oan prosessen en produktstabiliteit. Wy hawwe no in moanne yn dizze modus wurke.

Hjirûnder fine jo foto's fan 'e echte wurkplakken fan ús tsjinstoffisieren.

Hoe wy evakuearre de Yandex plicht shift

Hoe wy evakuearre de Yandex plicht shift

Hoe wy evakuearre de Yandex plicht shift

Hoe wy evakuearre de Yandex plicht shift

Hoe wy evakuearre de Yandex plicht shift

Boarne: www.habr.com