Cumu avemu evacuatu u turnu di serviziu Yandex

Cumu avemu evacuatu u turnu di serviziu Yandex

Quandu u travagliu si mette in un laptop è pò esse fattu in modu autonomu da l'altri populi, allora ùn ci hè micca prublema per passà in un locu remotu - solu stà in casa a mattina. Ma micca tutti sò tantu furtunatu.

U turnu on-call hè una squadra di specialisti di dispunibilità di serviziu (SRE). Include amministratori, sviluppatori, amministratori, è ancu un "dashboard" cumuni di 26 pannelli LCD di 55 inch ognunu. A stabilità di i servizii di a cumpagnia è a rapidità di risolve i prublemi dipendenu da u travagliu di u turnu di u duvere.

Oghje Dmitry Melikov tal10n, u manager di u turnu di turnu, parrarà cumu in una materia di ghjorni anu sappiutu à trasportà l'equipaggiu à a so casa è stabilisce novi prucessi di travagliu. Li dugnu a parolla.

- Quandu avete un suministru infinitu di tempu, pudete spustà cunfortu in ogni locu cù qualcosa. Ma a rapida diffusione di coronavirus ci hà messu in cundizioni completamente diverse. L'impiegati di Yandex eranu trà i primi à passà à u travagliu remoto - ancu prima di l'intruduzione di u regime d'autoisolamentu. Hè accadutu cusì. U ghjovi, 12 di marzu, mi hè statu dumandatu à valutà a pussibilità di trasfurmà u travagliu di a squadra in casa. U venneri 13, hè apparsa una raccomandazione per passà à u travagliu remoto. A notte di u marti, u 17 di marzu, avemu avutu tuttu prontu : e persone di turnu travagliavanu da casa, l'equipaggiu hè statu trasportatu, u software mancante hè statu scrittu, i prucessi sò stati reconfigurati. È avà vi dicu cumu avemu tiratu fora. Ma prima, avete bisognu di ricurdà i travaglii chì u turnu di u duvere risolve.

Quale simu

Yandex hè una grande cumpagnia cù centinaie di servizii. A stabilità di a ricerca, l'assistente di voce è tutti l'altri prudutti dipende micca solu di i sviluppatori. L'alimentazione elettrica in u centru di dati pò esse disturbata. Un travagliadore pò dannà accidentalmente un cable otticu mentre rimpiazza l'asfaltu. O ci pò esse una crescita in l'attività di l'utilizatori, causendu una necessità urgente di riallocate a capacità. Inoltre, tutti campemu in una grande infrastruttura cumplessa, è a liberazione di un pruduttu pò purtari accidentalmente à a degradazione di l'altru.

26 pannelli in u nostru spaziu apertu sò un milla è mezu di avvisi è più di centu charts è pannelli di i nostri servizii. Essenzialmente, questu hè un grande pannellu diagnosticu. Un amministratore espertu di turnu pò capisce rapidamente u statutu di cumpunenti impurtanti fighjendu è ponu stabilisce a direzzione per investigà un prublema tecnologicu. Questu ùn significa micca chì una persona deve sempre fighjà tutti i dispusitivi: l'automatizazione stessu attraerà l'attenzione mandendu una notificazione à l'interfaccia speciale di l'ufficiale, ma senza un pannellu visuale, a risoluzione di u prublema pò piglià assai tempu.

Quandu i prublemi si presentanu, l'ufficiale di serviziu prima evaluate a so priorità. Allora isola u prublema o minimizza u so impattu nantu à l'utilizatori.

Ci hè parechje modi standard per isolà u prublema. Unu d'elli hè a degradazione di i servizii, quandu l'amministratore in turnu disattiva alcune di e funzioni chì l'utilizatori ùn anu micca menu. Questu permette di riduce temporaneamente a carica è capisce ciò chì hè accadutu. Se un prublema sorge cù u centru di dati, l'ufficiale di u duvere cuntattate u squadra di l'operazione, capisce u prublema, monitoreghja u timing di a so risoluzione è, se ne necessariu, implica squadre specializate.

Quandu l'amministratore di turnu ùn pò micca isolà un prublema chì hè ghjuntu per una liberazione, l'informa à a squadra di serviziu - è i sviluppatori cercanu errori in u novu codice. Se ùn ponu micca capisce, allora l'amministratore attrae sviluppatori da altri prudutti o ingegneri di dispunibilità di serviziu.

Puderaghju parlà per un bellu pezzu di cumu tuttu funziona quì, ma pensu chì aghju digià trasmessu l'essenza. U turnu di duvere coordina u travagliu di tutti i servizii è monitoreghja i prublemi glubale. Hè impurtante per l'amministratore in u duvere avè u pannellu diagnosticu davanti à i so ochji. Hè per quessa, quandu si passa à u travagliu remoto, ùn pudete micca solu dà à tutti un laptop. I grafici è l'alerte ùn si adattanu micca à u screnu. Chì fà ?

Idea

In l'uffiziu, tutti i dece amministratori di turnu travaglianu in turni daretu à un dashboard, chì include 26 monitors, dui computers, quattru carte video NVIDIA Quadro NVS 810, duie alimentazione ininterrotta in rack è parechji accessi di rete indipendenti. Avemu bisognu di assicurà chì tutti avianu l'uppurtunità di travaglià in casa. Hè simplicemente micca pussibule di assemblà un tali muru in un appartamentu (a mo moglia serà sopratuttu felice di questu), cusì avemu decisu di creà una versione portable chì pò esse purtata è assemblata in casa.

Avemu cuminciatu à sperimentà a cunfigurazione. Avemu bisognu di adattà tutti i dispositi in menu display, cusì u requisitu principale per u monitor era una alta densità di pixel. Di i monitori 4K dispunibili in u nostru ambiente, avemu sceltu u Lenovo P27u-10 per pruvà.

Da i laptops avemu pigliatu un MacBook Pro 16-inch. Havi un sottosistema graficu abbastanza putente, necessariu per rende l'imaghjini nantu à parechji schermi 4K, è quattru connettori universali Type-C. Pudete dumandà: perchè micca u desktop? A rimpiazzà un laptop cù esattamente u stessu da un magazzinu hè assai più faciule è più veloce chì assemble è cunfigurà una unità di sistema identica. È pesa menu.

Avà avemu bisognu di capisce quanti monitori puderemu veramente cunnette à u laptop. È u prublema quì ùn hè micca u numeru di connettori; pudemu truvà solu questu pruvendu u sistema assemblatu.

Cumu avemu evacuatu u turnu di serviziu Yandex

Prucessioni

Avemu abbastanza cunfortu pusatu tutti i charts è alerti nantu à quattru monitori è ancu cunnessu à un laptop, ma avemu avutu un prublema. A rendering 4x4K pixels nantu à i monitori cunnessi mette una tale tensione nantu à a carta video chì u laptop hè stata drenata ancu mentre a carica. Fortunatamente, u prublema hè stata risolta cù l'aiutu di u Lenovo ThinkPad Thunderbolt 3 Dock Gen 2. Puderaghju cunnetta un monitor, alimentazione, è ancu u mo mouse è u teclatu favuritu à a stazione di docking.

Ma un altru prublema hè subitu subitu: a GPU era tantu chjosa chì u laptop si surriscaldava, chì significa chì a bateria hè ancu surriscaldata, chì in u risultatu hè andatu in modu protettivu è hà cessatu di accettà a carica. In generale, questu hè un modu assai utile chì prutegge contr'à situazioni periculose. In certi casi, u prublema hè stata risolta cù l'aiutu di un dispositivu d'alta tecnulugia - una penna di bola posta sottu à u laptop per migliurà a ventilazione. Ma questu ùn hà micca aiutatu à tutti, cusì avemu ancu vultatu a velocità di u fan standard.

Ci era una altra funzione spiacevoli. Tutti i grafici è l'alerte deve esse situatu in un locu strettamente definitu. Immaginate chì state pilotate un aviò per atterrare - è dopu l'indicatori di velocità, altimetri, variometri, indicatori d'attitudine, bussole è indicatori di pusizione cumincianu à cambià a dimensione è à saltà in diversi posti. Allora avemu decisu di fà una applicazione chì aiutarà cù questu. In una sera avemu scrittu in Electron.js, pigliendu un ready-made API nantu à a creazione è a gestione di Windows. Avemu aghjustatu un processore di cunfigurazione è a so aghjurnazione periodica, è ancu supportu per un numeru limitatu di monitori. Un pocu dopu aghjunghjenu supportu per diverse setups.

Assemblage è consegna

Da u luni, i maghi da u help desk avianu ottenutu 40 monitors, dece laptops è u listessu numeru di stazioni di docking per noi. Ùn sò micca sapè cumu l'anu gestitu, ma ringraziu assai.

Cumu avemu evacuatu u turnu di serviziu Yandex

Il ne restait plus qu'à livrer tout à l'appartement de l'administrateur de service. E questi sò dece indirizzi in diverse parti di Mosca: sudu, est, centru, è ancu Balashikha, chì hè à 45 chilometri da l'uffiziu (per via, un internu di Serpukhov hè statu dopu aghjuntu). Era necessariu di qualchì manera distribuisce tuttu questu trà e persone, per custruisce a logistica.

Aghju intrutu in tutti l'indirizzi nantu à i nostri Maps, ci hè sempre l'uppurtunità di ottimisà u percorsu trà e diverse punti (aghju utilizatu a versione beta libera di l'uttellu per i corrieri). Avemu divisu a nostra squadra in quattru squadre indipendenti di duie persone, ognunu cù a so propria strada. A mo vittura hè stata a più spaziosa, cusì aghju pigliatu l'equipaggiu per quattru impiegati à una volta.

Cumu avemu evacuatu u turnu di serviziu Yandex

L'intera spedizione hà pigliatu un record di trè ore. Partimu da l'uffiziu à deci u luni sera. À una ora di mane eru digià in casa. A listessa notte andemu in turnu cù l'equipaggiu novu.

Chì ghjè a linea di fondu

Invece di una grande cunsola di diagnostica, avemu riunitu deci relativamente portables in l'appartamentu di ogni persona di turnu. Di sicuru, ci era ancu qualchi dettagli da risolve. Per esempiu, avemu avutu un telefuninu "di ferru" per l'ufficiale di serviziu per notificazioni. Questu ùn hà micca travagliatu in e novi cundizioni, cusì avemu ghjuntu cù "telefoni virtuali" per l'ufficiali di u duvere (essenzialmente, canali in u messenger). Ci era ancu altri cambiamenti. Ma a cosa principal hè chì in un tempu record avemu sappiutu trasfiriri micca solu e persone, riducendu u risicu di a so infizzione, ma tuttu u nostru travagliu in casa senza dannu à i prucessi è a stabilità di u produttu. Avemu travagliatu in questu modu per un mese avà.

Quì sottu truverete ritratti di i veri posti di travagliu di i nostri ufficiali di serviziu.

Cumu avemu evacuatu u turnu di serviziu Yandex

Cumu avemu evacuatu u turnu di serviziu Yandex

Cumu avemu evacuatu u turnu di serviziu Yandex

Cumu avemu evacuatu u turnu di serviziu Yandex

Cumu avemu evacuatu u turnu di serviziu Yandex

Source: www.habr.com