Hoe we de dienstdienst van Yandex hebben geëvacueerd

Hoe we de dienstdienst van Yandex hebben geëvacueerd

Als het werk op één laptop past en onafhankelijk van anderen kan worden gedaan, is de overstap naar thuiswerken geen probleem: blijf 's ochtends gewoon thuis. Maar niet iedereen heeft dat geluk.

De dienstdoende dienst bestaat uit een team van specialisten in beschikbaarheid van diensten (SRE). Het bestaat uit dienstdoende beheerders, ontwikkelaars, managers en een gemeenschappelijk "dashboard" met 26 lcd-schermen van elk 55 inch. De stabiliteit van de dienstverlening en de snelheid van probleemoplossing zijn afhankelijk van het werk van de dienstdoende dienstdoende dienstdoende.

Vandaag Dmitry Melikov tal10n, de dienstleider, zal ons vertellen hoe ze erin geslaagd zijn om de apparatuur binnen een paar dagen naar het huis te vervoeren en nieuwe werkprocessen op te zetten. Ik geef het woord aan hem.

— Als je oneindig veel tijd hebt, kun je je comfortabel verplaatsen, overal en met alles wat je maar wilt. Maar de snelle verspreiding van het coronavirus heeft ons in compleet andere omstandigheden gebracht. Yandex-medewerkers behoorden tot de eersten die overschakelden op thuiswerken – nog vóór de invoering van de zelfisolatie. Het ging zo. Op donderdag 12 maart werd mij gevraagd de mogelijkheid te beoordelen om het werk van het team vanuit huis te verplaatsen. Op vrijdag de 13e werd een aanbeveling gedaan om over te stappen op thuiswerken. In de nacht van dinsdag 17 maart hadden we alles klaar: de dienstdoende officieren werken vanuit huis, de apparatuur is vervoerd, de ontbrekende software is geschreven, de processen zijn opnieuw geconfigureerd. En nu zal ik je vertellen hoe we het hebben gedaan. Maar eerst moeten we de taken onthouden die de dienstdienst oplost.

Wie zijn we

Yandex is een groot bedrijf met honderden diensten. De stabiliteit van zoeksystemen, spraakassistenten en alle andere producten hangt niet alleen af ​​van ontwikkelaars. De stroomvoorziening in het datacenter kan verstoord raken. Een werknemer die asfalt vervangt, kan per ongeluk een optische kabel beschadigen. Of er kan een piek in gebruikersactiviteit optreden, waardoor een dringende herverdeling van de capaciteit noodzakelijk is. Bovendien leven we allemaal in een grote, complexe infrastructuur, en de release van het ene product kan onbedoeld leiden tot de degradatie van een ander.

26 panelen in onze open ruimte bevatten anderhalfduizend meldingen en meer dan honderd grafieken en panelen van onze diensten. In feite is dit een enorm diagnostisch paneel. Een ervaren beheerder die ernaar kijkt, begrijpt snel de status van belangrijke eenheden en kan de richting bepalen voor het onderzoeken van een technologisch probleem. Dit betekent niet dat iemand constant naar alle apparaten moet kijken: de automatisering zelf trekt de aandacht door een melding te sturen naar de speciale interface van de dienstdoende officier, maar zonder een visueel paneel kan het oplossen van het probleem vertraging oplopen.

Wanneer zich problemen voordoen, beoordeelt de medewerker eerst de prioriteit ervan. Vervolgens isoleert hij het probleem of minimaliseert hij de impact ervan op gebruikers.

Er zijn verschillende standaardmanieren om een ​​probleem te isoleren. Een daarvan is servicevermindering, waarbij de dienstdoende beheerder een aantal functies uitschakelt die gebruikers het minst opmerken. Dit stelt u in staat de belasting tijdelijk te verminderen en te achterhalen wat er is gebeurd. Als er een probleem ontstaat met het datacenter, neemt de dienstdoende beheerder contact op met het operationele team, lost het probleem op, bewaakt het tijdsbestek voor de oplossing en schakelt indien nodig gespecialiseerde teams in.

Wanneer de dienstdoende beheerder een probleem dat door een release is veroorzaakt niet kan isoleren, meldt hij of zij dit aan het serviceteam. De ontwikkelaars zoeken vervolgens naar fouten in de nieuwe code. Als ze er niet uitkomen, schakelt de beheerder ontwikkelaars van andere product- of servicebeschikbaarheidsengineers in.

Ik kan lang doorpraten over hoe alles hier geregeld is, maar ik denk dat ik de essentie al heb weergegeven. De dienst coördineert de werkzaamheden van alle diensten en monitort de wereldwijde problemen. Het is belangrijk dat de dienstdoende beheerder een diagnostisch paneel voor ogen heeft. Daarom kun je bij de overstap naar thuiswerken niet zomaar iedereen een laptop geven. De grafieken en meldingen passen niet op het scherm. Wat nu?

Idee

Op kantoor werken alle tien dienstdoende beheerders in ploegendienst aan één bedieningspaneel, dat bestaat uit 26 monitoren, twee computers, vier NVIDIA Quadro NVS 810-videokaarten, twee rack-mounted UPS'en en meerdere onafhankelijke netwerktoegangspunten. We moesten iedereen de mogelijkheid bieden om thuis te werken. Het is simpelweg onmogelijk om zo'n muur in een appartement te monteren (mijn vrouw zal hier vooral blij mee zijn), dus besloten we een draagbare versie te maken die je mee kunt nemen en thuis in elkaar kunt zetten.

We begonnen te experimenteren met de configuratie. We moesten alle apparaten op een kleiner aantal schermen kwijt, dus de belangrijkste vereiste voor de monitor was een hoge pixeldichtheid. Van de 4K-monitoren in onze omgeving kozen we voor de Lenovo P27u-10 om te testen.

Van de laptops hebben we de 16-inch MacBook Pro genomen. Deze heeft een behoorlijk krachtig grafisch subsysteem, nodig voor het renderen van beelden op verschillende 4K-schermen, en vier universele Type-C-aansluitingen. Je vraagt ​​je misschien af: waarom geen desktop? Het vervangen van een laptop door exact dezelfde laptop uit de fabriek is veel gemakkelijker en sneller dan het in elkaar zetten en installeren van een identiek systeem. En hij weegt minder.

Nu moesten we begrijpen hoeveel monitoren we daadwerkelijk op de laptop konden aansluiten. En het probleem hier is niet het aantal aansluitingen; dat konden we alleen achterhalen door het geassembleerde systeem te testen.

Hoe we de dienstdienst van Yandex hebben geëvacueerd

Testen

We plaatsten alle grafieken en meldingen comfortabel op vier monitoren en sloten ze zelfs aan op de laptop, maar we liepen tegen een probleem aan. Het tekenen van 4x4K-pixels op de aangesloten monitoren belastte de videokaart zo sterk dat de laptop zelfs tijdens het opladen leegliep. Gelukkig was het probleem opgelost met het Lenovo ThinkPad Thunderbolt 3 Dock Gen 2. We konden de monitor, de voeding en zelfs onze favoriete muis en toetsenbord op het dock aansluiten.

Maar er dook meteen een ander probleem op: de GPU (GPU) maakte zoveel lawaai dat de laptop oververhit raakte, wat betekende dat ook de accu oververhit raakte. Deze ging uiteindelijk in de beschermende modus en accepteerde geen lading meer. Over het algemeen is dit een zeer nuttige modus die bescherming biedt tegen gevaarlijke situaties. In sommige gevallen werd het probleem opgelost met behulp van een hightech apparaat: een balpen die onder de laptop werd geplaatst om de ventilatie te verbeteren. Maar dit hielp niet iedereen, dus verhoogden we ook de snelheid van de standaardventilator.

Er was nog een vervelende bijkomstigheid. Alle grafieken en waarschuwingen moeten zich op een strikt gedefinieerde plaats bevinden. Stel je voor dat je een vliegtuig bestuurt dat moet landen - en dan beginnen de snelheidsmeters, hoogtemeters, variometers, kunstmatige horizonnen, kompassen en positie-indicatoren van grootte te veranderen en op verschillende plaatsen te springen. Dus besloten we een applicatie te maken die hierbij zou helpen. In één avond schreven we het in Electron.js, met behulp van een kant-en-klare API Voor het aanmaken en beheren van vensters. Er is een configuratiehandler en een periodieke update toegevoegd, evenals ondersteuning voor een beperkt aantal monitoren. Iets later hebben we ook ondersteuning voor verschillende configuraties toegevoegd.

Montage en levering

Maandag hadden de helpdeskmedewerkers ons 40 monitoren, tien laptops en evenveel dockingstations bezorgd. Ik weet niet hoe ze het gedaan hebben, maar we zijn ze enorm dankbaar.

Hoe we de dienstdienst van Yandex hebben geëvacueerd

Het enige wat nog restte was het afleveren van dit alles bij de appartementen van de dienstdoende beheerders. En dit waren tien adressen in verschillende delen van Moskou: het zuiden, het oosten, het centrum, en ook Balashikha, dat 45 kilometer van het kantoor ligt (trouwens, later kwam er een stagiair van Serpoechov bij). Het was nodig om dit alles op de een of andere manier onder de mensen te verdelen, om de logistiek op te bouwen.

Ik heb alle adressen op onze kaarten ingevoerd. Er is ook een optie om de route tussen verschillende punten te optimaliseren (ik heb de gratis bètaversie van de tool voor koeriers gebruikt). We hebben ons team verdeeld in vier onafhankelijke teams van twee personen, elk met een eigen route. Mijn auto bleek de ruimste te zijn, dus ik heb in één keer apparatuur voor vier medewerkers meegenomen.

Hoe we de dienstdienst van Yandex hebben geëvacueerd

De hele levering duurde een recordtijd van drie uur. We vertrokken maandagavond om tien uur van kantoor. Ik was om één uur 's nachts al thuis. Diezelfde nacht gingen we met de nieuwe apparatuur aan de slag.

Zodat

In plaats van één grote diagnoseconsole hebben we er tien relatief draagbare in het appartement van elke dienstdoende agent geïnstalleerd. Natuurlijk moesten er nog wel wat kleine dingetjes geregeld worden. Zo hadden we voorheen één 'ijzeren' telefoon voor de dienstdoende agent voor meldingen. Onder de nieuwe omstandigheden werkte dit niet, dus bedachten we 'virtuele telefoons' voor de dienstdoende agenten (in wezen kanalen in een berichtensysteem). Er waren nog meer veranderingen. Maar het belangrijkste is dat we er in recordtijd in geslaagd zijn om niet alleen mensen over te zetten, waardoor het risico op infectie werd verkleind, maar ook al ons thuiswerk, zonder de processen en de stabiliteit van onze producten te schaden. We werken nu al een maand in deze modus.

Hieronder vindt u foto’s van de daadwerkelijke werkplekken van onze dienstdoende officieren.

Hoe we de dienstdienst van Yandex hebben geëvacueerd

Hoe we de dienstdienst van Yandex hebben geëvacueerd

Hoe we de dienstdienst van Yandex hebben geëvacueerd

Hoe we de dienstdienst van Yandex hebben geëvacueerd

Hoe we de dienstdienst van Yandex hebben geëvacueerd

Bron: www.habr.com

Koop betrouwbare hosting voor sites met DDoS-bescherming, VPS VDS-servers 🔥 Koop betrouwbare websitehosting met DDoS-bescherming, VPS- en VDS-servers | ProHoster