Πώς εκκενώσαμε τη βάρδια του Yandex

Πώς εκκενώσαμε τη βάρδια του Yandex

Όταν η εργασία χωράει σε ένα φορητό υπολογιστή και μπορεί να γίνει αυτόνομα από άλλα άτομα, τότε δεν υπάρχει πρόβλημα μετακίνησης σε απομακρυσμένη τοποθεσία - απλώς μένοντας στο σπίτι το πρωί. Δεν είναι όμως όλοι τόσο τυχεροί.

Η εφημερία είναι μια ομάδα ειδικών διαθεσιμότητας υπηρεσιών (SREs). Περιλαμβάνει υπηρεσιακούς διαχειριστές, προγραμματιστές, διαχειριστές, καθώς και έναν κοινό «ταμπλό» 26 οθονών LCD των 55 ιντσών το καθένα. Η σταθερότητα των υπηρεσιών της εταιρείας και η ταχύτητα επίλυσης προβλημάτων εξαρτώνται από το έργο της βάρδιας.

Σήμερα ο Ντμίτρι Μελίκοφ tal10n, ο υπεύθυνος της εφημερίας, θα μιλήσει για το πώς κατάφεραν μέσα σε λίγες μέρες να μεταφέρουν εξοπλισμό στο σπίτι τους και να καθιερώσουν νέες εργασιακές διαδικασίες. Του δίνω τον λόγο.

— Όταν έχεις ατελείωτο απόθεμα χρόνου, μπορείς άνετα να κινηθείς παντού με οτιδήποτε. Όμως η ταχεία εξάπλωση του κορωνοϊού μας έχει φέρει σε εντελώς διαφορετικές συνθήκες. Οι υπάλληλοι της Yandex ήταν από τους πρώτους που μεταπήδησαν στην απομακρυσμένη εργασία - ακόμη και πριν από την εισαγωγή του καθεστώτος αυτοαπομόνωσης. Έγινε έτσι. Την Πέμπτη 12 Μαρτίου, μου ζητήθηκε να αξιολογήσω το ενδεχόμενο να μεταφερθεί η δουλειά της ομάδας στο σπίτι. Την Παρασκευή 13, εμφανίστηκε μια σύσταση για μετάβαση στην απομακρυσμένη εργασία. Το βράδυ της Τρίτης 17 Μαρτίου τα είχαμε όλα έτοιμα: οι εφημερεύοντες δούλευαν από το σπίτι, ο εξοπλισμός μεταφέρθηκε, το λογισμικό που έλειπε γράφτηκε, οι διαδικασίες αναδιαμορφώθηκαν. Και τώρα θα σας πω πώς τα καταφέραμε. Αλλά πρώτα, πρέπει να θυμάστε τις εργασίες που επιλύει η βάρδια.

Ποιοι είμαστε

Η Yandex είναι μια μεγάλη εταιρεία με εκατοντάδες υπηρεσίες. Η σταθερότητα της αναζήτησης, του φωνητικού βοηθού και όλων των άλλων προϊόντων δεν εξαρτάται μόνο από τους προγραμματιστές. Η παροχή ρεύματος στο κέντρο δεδομένων ενδέχεται να διακοπεί. Ένας εργαζόμενος μπορεί κατά λάθος να καταστρέψει ένα οπτικό καλώδιο κατά την αντικατάσταση της ασφάλτου. Ή μπορεί να υπάρξει αύξηση της δραστηριότητας των χρηστών, προκαλώντας επείγουσα ανάγκη ανακατανομής χωρητικότητας. Επιπλέον, όλοι ζούμε σε μεγάλες, πολύπλοκες υποδομές και η κυκλοφορία ενός προϊόντος μπορεί κατά λάθος να οδηγήσει στην υποβάθμιση ενός άλλου.

26 πίνακες στον ανοιχτό μας χώρο είναι μιάμιση χιλιάδες ειδοποιήσεις και περισσότερα από εκατό γραφήματα και πίνακες των υπηρεσιών μας. Ουσιαστικά, πρόκειται για ένα τεράστιο διαγνωστικό πάνελ. Ένας έμπειρος διαχειριστής σε υπηρεσία μπορεί να κατανοήσει γρήγορα την κατάσταση σημαντικών εξαρτημάτων κοιτάζοντάς τα και μπορεί να ορίσει την κατεύθυνση για τη διερεύνηση ενός τεχνολογικού προβλήματος. Αυτό δεν σημαίνει ότι ένα άτομο πρέπει να κοιτάζει συνεχώς όλες τις συσκευές: ο ίδιος ο αυτοματισμός θα προσελκύσει την προσοχή στέλνοντας μια ειδοποίηση στην ειδική διεπαφή του αξιωματικού υπηρεσίας, αλλά χωρίς οπτικό πάνελ, η επίλυση του προβλήματος μπορεί να διαρκέσει πολύ.

Όταν προκύπτουν προβλήματα, ο αξιωματικός υπηρεσίας αξιολογεί πρώτα την προτεραιότητά τους. Στη συνέχεια απομονώνει το πρόβλημα ή ελαχιστοποιεί τον αντίκτυπό του στους χρήστες.

Υπάρχουν διάφοροι τυπικοί τρόποι για την απομόνωση του προβλήματος. Ένα από αυτά είναι η υποβάθμιση των υπηρεσιών, όταν ο διαχειριστής που βρίσκεται σε υπηρεσία απενεργοποιεί ορισμένες από τις λειτουργίες που οι χρήστες δεν παρατηρούν λιγότερο. Αυτό σας επιτρέπει να μειώσετε προσωρινά το φορτίο και να καταλάβετε τι συνέβη. Εάν προκύψει πρόβλημα με το κέντρο δεδομένων, ο αξιωματικός υπηρεσίας επικοινωνεί με την ομάδα λειτουργίας, κατανοεί το πρόβλημα, παρακολουθεί το χρόνο επίλυσής του και, εάν χρειάζεται, εμπλέκει εξειδικευμένες ομάδες.

Όταν ο εφημερεύων διαχειριστής δεν μπορεί να απομονώσει ένα πρόβλημα που έχει προκύψει λόγω έκδοσης, το αναφέρει στην ομάδα σέρβις - και οι προγραμματιστές αναζητούν σφάλματα στον νέο κώδικα. Εάν δεν μπορούν να το καταλάβουν, τότε ο διαχειριστής προσελκύει προγραμματιστές από άλλους μηχανικούς διαθεσιμότητας προϊόντων ή υπηρεσιών.

Μπορώ να μιλήσω για πολύ καιρό για το πώς λειτουργούν όλα εδώ, αλλά νομίζω ότι έχω ήδη μεταφέρει την ουσία. Η βάρδια συντονίζει το έργο όλων των υπηρεσιών και παρακολουθεί τα παγκόσμια προβλήματα. Είναι σημαντικό για τον εφημερεύοντα διαχειριστή να έχει το διαγνωστικό πάνελ μπροστά στα μάτια του. Γι' αυτό, όταν μεταβαίνετε σε απομακρυσμένη εργασία, δεν μπορείτε απλά να δώσετε σε όλους έναν φορητό υπολογιστή. Τα γραφήματα και οι ειδοποιήσεις δεν θα χωρούν στην οθόνη. Τι να κάνω?

Ιδέα

Στο γραφείο, και οι δέκα διαχειριστές που βρίσκονται σε υπηρεσία εργάζονται σε βάρδιες πίσω από ένα ταμπλό, το οποίο περιλαμβάνει 26 οθόνες, δύο υπολογιστές, τέσσερις κάρτες γραφικών NVIDIA Quadro NVS 810, δύο τροφοδοτικά αδιάλειπτης ισχύος σε rack και πολλές ανεξάρτητες προσβάσεις δικτύου. Έπρεπε να διασφαλίσουμε ότι όλοι είχαν την ευκαιρία να εργαστούν στο σπίτι. Απλώς δεν είναι δυνατό να συναρμολογήσετε έναν τέτοιο τοίχο σε ένα διαμέρισμα (η γυναίκα μου θα είναι ιδιαίτερα χαρούμενη γι 'αυτό), έτσι αποφασίσαμε να δημιουργήσουμε μια φορητή έκδοση που μπορεί να φέρει και να συναρμολογηθεί στο σπίτι.

Αρχίσαμε να πειραματιζόμαστε με τη διαμόρφωση. Χρειαζόμασταν να τοποθετήσουμε όλες τις συσκευές σε λιγότερες οθόνες, επομένως η κύρια απαίτηση για την οθόνη ήταν η υψηλή πυκνότητα pixel. Από τις οθόνες 4K που είναι διαθέσιμες στο περιβάλλον μας, επιλέξαμε το Lenovo P27u-10 για δοκιμή.

Από φορητούς υπολογιστές πήραμε ένα MacBook Pro 16 ιντσών. Διαθέτει ένα αρκετά ισχυρό υποσύστημα γραφικών, απαραίτητο για την απόδοση εικόνων σε πολλές οθόνες 4K, και τέσσερις καθολικές υποδοχές Type-C. Μπορείτε να ρωτήσετε: γιατί όχι επιτραπέζιος υπολογιστής; Η αντικατάσταση ενός φορητού υπολογιστή με τον ίδιο ακριβώς από μια αποθήκη είναι πολύ πιο εύκολη και γρήγορη από τη συναρμολόγηση και τη διαμόρφωση μιας ίδιας μονάδας συστήματος. Και ζυγίζει λιγότερο.

Τώρα έπρεπε να καταλάβουμε πόσες οθόνες μπορούσαμε να συνδέσουμε πραγματικά στον φορητό υπολογιστή. Και το πρόβλημα εδώ δεν είναι ο αριθμός των συνδέσμων· αυτό θα μπορούσαμε να το μάθουμε μόνο δοκιμάζοντας το συναρμολογημένο σύστημα.

Πώς εκκενώσαμε τη βάρδια του Yandex

Δοκιμές

Τοποθετήσαμε αρκετά άνετα όλα τα διαγράμματα και τις ειδοποιήσεις σε τέσσερις οθόνες και τα συνδέσαμε ακόμη και σε φορητό υπολογιστή, αλλά αντιμετωπίσαμε πρόβλημα. Η απόδοση εικονοστοιχείων 4x4K σε συνδεδεμένες οθόνες επιβάρυνε τόσο την κάρτα γραφικών που ο φορητός υπολογιστής αποστραγγίστηκε ακόμη και κατά τη φόρτιση. Ευτυχώς, το πρόβλημα λύθηκε με τη βοήθεια του Lenovo ThinkPad Thunderbolt 3 Dock Gen 2. Μπόρεσα να συνδέσω μια οθόνη, τροφοδοτικό, ακόμη και το αγαπημένο μου ποντίκι και πληκτρολόγιο στη βάση σύνδεσης.

Αλλά αμέσως εμφανίστηκε ένα άλλο πρόβλημα: η GPU ήταν τόσο πολύ που ο φορητός υπολογιστής υπερθερμάνθηκε, πράγμα που σημαίνει ότι υπερθερμάνθηκε και η μπαταρία, η οποία ως αποτέλεσμα μπήκε σε λειτουργία προστασίας και σταμάτησε να δέχεται φόρτιση. Γενικά, αυτή είναι μια πολύ χρήσιμη λειτουργία που προστατεύει από επικίνδυνες καταστάσεις. Σε ορισμένες περιπτώσεις, το πρόβλημα επιλύθηκε με τη βοήθεια μιας συσκευής υψηλής τεχνολογίας - ένα στυλό που τοποθετήθηκε κάτω από το φορητό υπολογιστή για τη βελτίωση του αερισμού. Αλλά αυτό δεν βοήθησε όλους, έτσι αυξήσαμε επίσης την ταχύτητα του τυπικού ανεμιστήρα.

Υπήρχε ένα ακόμη δυσάρεστο χαρακτηριστικό. Όλα τα γραφήματα και οι ειδοποιήσεις πρέπει να βρίσκονται σε αυστηρά καθορισμένο μέρος. Φανταστείτε ότι πιλοτάρετε ένα αεροπλάνο για να προσγειωθείτε - και μετά οι δείκτες ταχύτητας, τα υψόμετρα, τα μεταβλητόμετρα, οι δείκτες στάσης, οι πυξίδες και οι δείκτες θέσης αρχίζουν να αλλάζουν μέγεθος και να μεταπηδούν σε διαφορετικά σημεία. Αποφασίσαμε λοιπόν να φτιάξουμε μια εφαρμογή που θα βοηθήσει σε αυτό. Σε ένα βράδυ το γράψαμε στο Electron.js, παίρνοντας ένα έτοιμο API σχετικά με τη δημιουργία και τη διαχείριση των παραθύρων. Προσθέσαμε έναν επεξεργαστή διαμόρφωσης και την περιοδική ενημέρωση τους, καθώς και υποστήριξη για περιορισμένο αριθμό οθονών. Λίγο αργότερα πρόσθεσαν υποστήριξη για διάφορες ρυθμίσεις.

Συναρμολόγηση και παράδοση

Μέχρι τη Δευτέρα, οι μάγοι από το γραφείο βοήθειας είχαν αποκτήσει 40 οθόνες, δέκα φορητούς υπολογιστές και τον ίδιο αριθμό σταθμών σύνδεσης για εμάς. Δεν ξέρω πώς τα κατάφεραν, αλλά τους ευχαριστώ πολύ.

Πώς εκκενώσαμε τη βάρδια του Yandex

Το μόνο που έμενε ήταν να παραδοθούν όλα στα διαμερίσματα των εφημερεύων διοικητών. Και αυτές είναι δέκα διευθύνσεις σε διάφορα μέρη της Μόσχας: νότια, ανατολικά, κέντρο και επίσης Balashikha, που απέχει 45 χιλιόμετρα από το γραφείο (παρεμπιπτόντως, ένας ασκούμενος από τον Serpukhov προστέθηκε αργότερα). Ήταν απαραίτητο να κατανεμηθούν με κάποιο τρόπο όλα αυτά μεταξύ των ανθρώπων, να χτιστεί η επιμελητεία.

Εισαγάγα όλες τις διευθύνσεις στους Χάρτες μας, υπάρχει ακόμα η ευκαιρία να βελτιστοποιήσω τη διαδρομή μεταξύ διαφορετικών σημείων (χρησιμοποίησα τη δωρεάν έκδοση beta του εργαλείου για κούριερ). Χωρίσαμε την ομάδα μας σε τέσσερις ανεξάρτητες ομάδες των δύο ατόμων, η καθεμία με τη δική της διαδρομή. Το αυτοκίνητό μου αποδείχθηκε ότι ήταν το πιο ευρύχωρο, οπότε πήρα εξοπλισμό για τέσσερις υπαλλήλους ταυτόχρονα.

Πώς εκκενώσαμε τη βάρδια του Yandex

Ολόκληρη η παράδοση κράτησε τρεις ώρες ρεκόρ. Φύγαμε από το γραφείο στις δέκα το βράδυ της Δευτέρας. Στη μία τα ξημερώματα ήμουν ήδη στο σπίτι. Το ίδιο βράδυ πήγαμε σε υπηρεσία με νέο εξοπλισμό.

Με αποτέλεσμα η

Αντί για μια μεγάλη διαγνωστική κονσόλα, συγκεντρώσαμε δέκα σχετικά φορητές στο διαμέρισμα κάθε εφημερεύοντος. Φυσικά, έμειναν ακόμα κάποιες λεπτομέρειες να διευθετηθούν. Για παράδειγμα, είχαμε ένα «σιδερένιο» τηλέφωνο για τον αξιωματικό υπηρεσίας για ειδοποιήσεις. Αυτό δεν λειτούργησε στις νέες συνθήκες, οπότε καταλήξαμε σε "εικονικά τηλέφωνα" για αξιωματικούς υπηρεσίας (ουσιαστικά, κανάλια στο messenger). Υπήρχαν και άλλες αλλαγές. Αλλά το κυριότερο είναι ότι σε χρόνο ρεκόρ καταφέραμε να μεταφέρουμε όχι μόνο ανθρώπους, μειώνοντας τον κίνδυνο μόλυνσης τους, αλλά όλη την εργασία μας στο σπίτι χωρίς να βλάψουμε τις διαδικασίες και τη σταθερότητα του προϊόντος. Δουλεύουμε σε αυτή τη λειτουργία εδώ και ένα μήνα.

Παρακάτω θα βρείτε φωτογραφίες από τους πραγματικούς χώρους εργασίας των αξιωματικών υπηρεσίας μας.

Πώς εκκενώσαμε τη βάρδια του Yandex

Πώς εκκενώσαμε τη βάρδια του Yandex

Πώς εκκενώσαμε τη βάρδια του Yandex

Πώς εκκενώσαμε τη βάρδια του Yandex

Πώς εκκενώσαμε τη βάρδια του Yandex

Πηγή: www.habr.com