Bagaimana kami mengevakuasi shift tugas Yandex

Bagaimana kami mengevakuasi shift tugas Yandex

Ketika pekerjaan muat dalam satu laptop dan bisa dilakukan secara mandiri dari orang lain, maka tidak ada masalah berpindah ke lokasi terpencil – cukup berdiam diri di rumah pada pagi hari. Namun tidak semua orang seberuntung itu.

Pergeseran panggilan adalah tim spesialis ketersediaan layanan (SRE). Ini mencakup administrator tugas, pengembang, manajer, serta “dasbor” umum yang terdiri dari 26 panel LCD masing-masing berukuran 55 inci. Stabilitas layanan perusahaan dan kecepatan penyelesaian masalah bergantung pada pekerjaan shift tugas.

Hari ini Dmitry Melikov tal10n, manajer shift yang bertugas, akan berbicara tentang bagaimana dalam hitungan hari mereka berhasil mengangkut peralatan ke rumah mereka dan membangun proses kerja baru. Saya memberinya lantai.

— Ketika Anda memiliki persediaan waktu yang tidak terbatas, Anda dapat dengan nyaman bergerak ke mana pun dengan apa pun. Namun penyebaran virus corona yang cepat telah menempatkan kita pada kondisi yang sangat berbeda. Karyawan Yandex termasuk orang pertama yang beralih ke pekerjaan jarak jauh - bahkan sebelum diberlakukannya rezim isolasi diri. Itu terjadi seperti ini. Pada Kamis, 12 Maret, saya diminta mengevaluasi kemungkinan pemindahan pekerjaan tim ke rumah. Pada hari Jumat tanggal 13, muncul rekomendasi untuk beralih ke pekerjaan jarak jauh. Pada malam Selasa, 17 Maret, kami telah menyiapkan segalanya: petugas yang bertugas bekerja dari rumah, peralatan diangkut, perangkat lunak yang hilang telah ditulis, proses dikonfigurasi ulang. Dan sekarang saya akan memberi tahu Anda bagaimana kami melakukannya. Tapi pertama-tama, Anda perlu mengingat tugas-tugas yang diselesaikan oleh shift tugas.

Siapa kita

Yandex adalah perusahaan besar dengan ratusan layanan. Stabilitas pencarian, asisten suara, dan semua produk lainnya tidak hanya bergantung pada pengembangnya. Pasokan listrik di pusat data mungkin terganggu. Seorang pekerja mungkin secara tidak sengaja merusak kabel optik saat mengganti aspal. Atau mungkin terjadi lonjakan aktivitas pengguna, yang menyebabkan kebutuhan mendesak untuk merealokasi kapasitas. Terlebih lagi, kita semua hidup di infrastruktur yang besar dan kompleks, dan peluncuran suatu produk mungkin secara tidak sengaja menyebabkan degradasi produk lainnya.

26 panel di ruang terbuka kami berisi satu setengah ribu peringatan dan lebih dari seratus grafik dan panel layanan kami. Intinya, ini adalah panel diagnostik yang sangat besar. Administrator berpengalaman yang bertugas dapat dengan cepat memahami status komponen penting dengan melihatnya dan dapat menetapkan arah untuk menyelidiki suatu masalah teknologi. Ini tidak berarti bahwa seseorang harus terus-menerus melihat semua perangkat: otomatisasi itu sendiri akan menarik perhatian dengan mengirimkan pemberitahuan ke antarmuka khusus petugas jaga, tetapi tanpa panel visual, penyelesaian masalah mungkin memerlukan waktu lama.

Ketika masalah muncul, petugas jaga terlebih dahulu mengevaluasi prioritasnya. Ini kemudian mengisolasi masalah atau meminimalkan dampaknya terhadap pengguna.

Ada beberapa cara standar untuk mengisolasi masalah. Salah satunya adalah degradasi layanan, ketika administrator yang bertugas menonaktifkan beberapa fungsi yang paling tidak diperhatikan pengguna. Ini memungkinkan Anda mengurangi beban untuk sementara dan mencari tahu apa yang terjadi. Jika terjadi masalah dengan pusat data, petugas jaga menghubungi tim operasi, memahami masalahnya, memantau waktu penyelesaiannya dan, jika perlu, melibatkan tim khusus.

Ketika administrator yang bertugas tidak dapat mengisolasi masalah yang timbul karena rilis, ia melaporkannya ke tim layanan - dan pengembang mencari kesalahan dalam kode baru. Jika mereka tidak dapat mengetahuinya, maka administrator menarik pengembang dari insinyur ketersediaan produk atau layanan lain.

Saya dapat berbicara panjang lebar tentang cara kerja semuanya di sini, tetapi saya rasa saya sudah menyampaikan intinya. Pergeseran tugas mengoordinasikan pekerjaan semua layanan dan memantau masalah global. Penting bagi administrator yang bertugas untuk memiliki panel diagnostik di depan matanya. Itu sebabnya, ketika beralih ke pekerjaan jarak jauh, Anda tidak bisa memberikan laptop kepada semua orang begitu saja. Grafik dan peringatan tidak akan muat di layar. Apa yang harus dilakukan?

Ide

Di kantor, kesepuluh administrator yang bertugas bekerja secara bergiliran di belakang satu dasbor, yang mencakup 26 monitor, dua komputer, empat kartu video NVIDIA Quadro NVS 810, dua catu daya tak terputus yang dipasang di rak, dan beberapa akses jaringan independen. Kami perlu memastikan bahwa setiap orang memiliki kesempatan untuk bekerja di rumah. Tidak mungkin memasang dinding seperti itu di apartemen (istri saya akan sangat senang dengan hal ini), jadi kami memutuskan untuk membuat versi portabel yang dapat dibawa dan dirakit di rumah.

Kami mulai bereksperimen dengan konfigurasi. Kami perlu menyesuaikan semua perangkat pada layar yang lebih sedikit, jadi persyaratan utama monitor ini adalah kepadatan piksel yang tinggi. Dari monitor 4K yang tersedia di lingkungan kami, kami memilih Lenovo P27u-10 untuk pengujian.

Dari laptop kami mengambil MacBook Pro 16 inci. Ini memiliki subsistem grafis yang cukup kuat, yang diperlukan untuk merender gambar pada beberapa layar 4K, dan empat konektor Universal Type-C. Anda mungkin bertanya: mengapa tidak desktop? Mengganti laptop dengan laptop yang sama persis dari gudang jauh lebih mudah dan cepat daripada merakit dan mengkonfigurasi unit sistem yang sama. Dan bobotnya lebih ringan.

Sekarang kami perlu memahami berapa banyak monitor yang sebenarnya dapat kami sambungkan ke laptop. Dan masalahnya di sini bukan pada jumlah konektornya; kami hanya dapat mengetahuinya dengan menguji sistem rakitan.

Bagaimana kami mengevakuasi shift tugas Yandex

Pengujian

Kami dengan nyaman menempatkan semua grafik dan peringatan di empat monitor dan bahkan menghubungkannya ke laptop, tetapi kami mengalami masalah. Merender piksel 4x4K pada monitor yang terhubung memberikan beban yang besar pada kartu video sehingga laptop terkuras bahkan saat mengisi daya. Untungnya, masalah tersebut teratasi dengan bantuan Lenovo ThinkPad Thunderbolt 3 Dock Gen 2. Saya dapat menyambungkan monitor, catu daya, dan bahkan mouse dan keyboard favorit saya ke stasiun dok.

Namun masalah lain segera muncul: GPU terlalu banyak bekerja sehingga laptop menjadi terlalu panas, yang berarti baterai juga terlalu panas, yang akibatnya masuk ke mode pelindung dan berhenti menerima pengisian daya. Secara umum, ini adalah mode yang sangat berguna untuk melindungi dari situasi berbahaya. Dalam beberapa kasus, masalahnya diselesaikan dengan bantuan perangkat berteknologi tinggi - pulpen yang ditempatkan di bawah laptop untuk meningkatkan ventilasi. Namun hal ini tidak membantu semua orang, jadi kami juga meningkatkan kecepatan kipas standar.

Ada satu lagi fitur yang tidak menyenangkan. Semua grafik dan peringatan harus ditempatkan di tempat yang ditentukan secara ketat. Bayangkan Anda sedang mengemudikan pesawat untuk mendarat - dan kemudian indikator kecepatan, altimeter, variometer, indikator sikap, kompas dan indikator posisi mulai berubah ukuran dan melompat ke tempat yang berbeda. Jadi kami memutuskan untuk membuat aplikasi yang akan membantu dalam hal ini. Suatu malam kami menulisnya di Electron.js, mengambil yang sudah jadi API tentang membuat dan mengelola jendela. Kami menambahkan prosesor konfigurasi dan pembaruan berkalanya, serta dukungan untuk sejumlah monitor terbatas. Beberapa saat kemudian mereka menambahkan dukungan untuk berbagai pengaturan.

Perakitan dan pengiriman

Pada hari Senin, para penyihir dari meja bantuan telah memperoleh 40 monitor, sepuluh laptop, dan jumlah stasiun dok yang sama untuk kami. Saya tidak tahu bagaimana mereka mengelolanya, tapi terima kasih banyak kepada mereka.

Bagaimana kami mengevakuasi shift tugas Yandex

Yang tersisa hanyalah mengirimkan semuanya ke apartemen administrator yang bertugas. Dan ini adalah sepuluh alamat di berbagai bagian Moskow: selatan, timur, tengah, dan juga Balashikha, yang berjarak 45 kilometer dari kantor (omong-omong, pekerja magang dari Serpukhov kemudian ditambahkan). Penting untuk mendistribusikan semua ini di antara orang-orang, untuk membangun logistik.

Saya memasukkan semua alamat di Peta kami, masih ada peluang untuk mengoptimalkan rute antara titik yang berbeda (saya menggunakan alat versi beta gratis untuk kurir). Kami membagi tim kami menjadi empat tim independen yang terdiri dari dua orang, masing-masing dengan rutenya sendiri. Ternyata mobil saya paling luas, jadi saya bawa perlengkapan untuk empat karyawan sekaligus.

Bagaimana kami mengevakuasi shift tugas Yandex

Seluruh pengiriman memakan waktu rekor tiga jam. Kami meninggalkan kantor pukul sepuluh pada hari Senin malam. Pada jam satu pagi saya sudah sampai di rumah. Malam itu juga kami berangkat bertugas dengan peralatan baru.

Dengan hasil yang

Alih-alih satu konsol diagnostik besar, kami merakit sepuluh konsol yang relatif portabel di apartemen setiap orang yang bertugas. Tentu saja, masih ada beberapa detail yang harus diselesaikan. Misalnya, kami dulu memiliki satu telepon “besi” untuk petugas jaga untuk pemberitahuan. Ini tidak berhasil dalam kondisi baru, jadi kami menciptakan “telepon virtual” untuk petugas jaga (pada dasarnya, saluran di messenger). Ada perubahan lain juga. Namun yang terpenting adalah dalam waktu singkat kami berhasil memindahkan tidak hanya orang-orang, mengurangi risiko penularan kepada mereka, namun semua pekerjaan kami ke rumah tanpa membahayakan proses dan stabilitas produk. Kami telah bekerja dalam mode ini selama sebulan sekarang.

Di bawah ini Anda akan menemukan foto-foto tempat kerja sebenarnya dari petugas jaga kami.

Bagaimana kami mengevakuasi shift tugas Yandex

Bagaimana kami mengevakuasi shift tugas Yandex

Bagaimana kami mengevakuasi shift tugas Yandex

Bagaimana kami mengevakuasi shift tugas Yandex

Bagaimana kami mengevakuasi shift tugas Yandex

Sumber: www.habr.com