
Ketika pekerjaan Anda muat di satu laptop dan dapat dilakukan secara mandiri, beralih ke kerja jarak jauh itu mudah—Anda hanya perlu tinggal di rumah di pagi hari. Namun, tidak semua orang seberuntung itu.
Tim On-Duty Shift adalah tim spesialis ketersediaan layanan (SRE). Tim ini terdiri dari administrator, pengembang, manajer yang bertugas, dan "dasbor" bersama yang terdiri dari 26 panel LCD 55 inci. Stabilitas layanan perusahaan dan kecepatan penyelesaian masalah bergantung pada kinerja tim On-Duty Shift.
Hari ini Dmitry Melikov , pengawas shift, akan memberi tahu Anda bagaimana mereka berhasil mengangkut peralatan ke rumah dan membangun proses kerja baru hanya dalam beberapa hari. Saya serahkan semuanya kepadanya.
Ketika Anda memiliki waktu yang tak terbatas, Anda dapat dengan nyaman bergerak ke mana saja dengan apa saja. Namun, penyebaran virus corona yang cepat telah menempatkan kita dalam situasi yang sama sekali berbeda. Karyawan Yandex termasuk yang pertama beralih ke pekerjaan jarak jauh, bahkan sebelum karantina wilayah diberlakukan. Begini ceritanya. Pada hari Kamis, 12 Maret, saya diminta untuk mengevaluasi kelayakan pemindahan pekerjaan tim dari rumah. Pada hari Jumat, tanggal 13, sebuah rekomendasi dikeluarkan untuk beralih ke pekerjaan jarak jauh. Menjelang malam Selasa, 17 Maret, kami telah menyiapkan segalanya: staf panggilan bekerja dari rumah, peralatan telah diangkut, perangkat lunak yang hilang telah ditulis, proses telah dikonfigurasi ulang. Dan sekarang saya akan memberi tahu Anda bagaimana kami melakukannya. Namun pertama-tama, kita perlu mengingat tugas-tugas yang dilakukan oleh shift panggilan.
Siapa kita
Yandex adalah perusahaan besar dengan ratusan layanan. Stabilitas pencarian, asisten suara, dan semua produk lainnya bergantung bukan hanya pada pengembangnya. Sebuah pusat data bisa saja mengalami pemadaman listrik. Seorang pekerja bisa saja secara tidak sengaja merusak kabel serat optik saat sedang diperbaiki. Atau, mungkin saja terjadi lonjakan aktivitas pengguna, yang membutuhkan pendistribusian ulang kapasitas yang mendesak. Terlebih lagi, kita semua hidup dalam infrastruktur yang besar dan kompleks, dan peluncuran satu produk bisa saja secara tidak sengaja menyebabkan penurunan kinerja produk lainnya.
Ke-26 panel di ruang terbuka kami mewakili 1.500 peringatan dan lebih dari 100 grafik dan dasbor untuk layanan kami. Intinya, ini adalah dasbor diagnostik yang sangat besar. Seorang administrator tugas yang berpengalaman, dengan sekilas pandang, dapat dengan cepat memahami status komponen penting dan menentukan arah investigasi masalah teknis. Ini bukan berarti seseorang harus terus-menerus memantau setiap instrumen: sistem otomatis akan secara otomatis menarik perhatian dengan mengirimkan notifikasi ke antarmuka khusus administrator tugas, tetapi tanpa dasbor yang jelas, penyelesaian masalah dapat tertunda.
Ketika masalah muncul, operator yang bertugas terlebih dahulu menilai prioritasnya. Kemudian, mereka mengisolasi masalah tersebut atau meminimalkan dampaknya terhadap pengguna.
Ada beberapa cara standar untuk mengisolasi masalah. Salah satunya adalah penurunan layanan, di mana administrator yang bertugas menonaktifkan beberapa fungsi yang paling tidak disadari oleh pengguna. Hal ini memungkinkan pengurangan beban sementara dan investigasi masalah. Jika terjadi masalah di pusat data, administrator yang bertugas menghubungi tim operasi, menyelidiki masalah tersebut, memantau linimasa penyelesaian, dan, jika perlu, melibatkan tim khusus.
Ketika administrator yang bertugas tidak dapat mengisolasi masalah terkait rilis, mereka melaporkannya ke tim layanan, dan para pengembang mencari kesalahan dalam kode baru. Jika mereka tidak dapat menemukannya, administrator akan melibatkan pengembang dari produk lain atau teknisi aksesibilitas layanan.
Saya bisa terus membahas bagaimana semuanya bekerja di sini, tetapi saya rasa saya sudah menyampaikan intinya. Shift jaga mengoordinasikan semua layanan dan memantau isu-isu global. Penting bagi administrator yang bertugas untuk memiliki dasbor diagnostik di depan mereka. Itulah sebabnya, ketika beralih ke kerja jarak jauh, kita tidak bisa begitu saja membagikan laptop kepada semua orang. Grafik dan peringatan tidak akan muat di layar. Apa yang harus kita lakukan?
Ide
Di kantor, kesepuluh administrator yang bertugas bekerja secara bergiliran di satu panel kontrol, yang terdiri dari 26 monitor, dua komputer, empat kartu grafis NVIDIA Quadro NVS 810, dua unit UPS yang terpasang di rak, dan beberapa koneksi jaringan independen. Kami perlu memastikan semua orang dapat bekerja dari rumah. Membangun dinding seperti itu di apartemen sama sekali tidak memungkinkan (istri saya pasti akan sangat senang), jadi kami memutuskan untuk membuat solusi portabel yang dapat dibawa dan dipasang di rumah.
Kami mulai bereksperimen dengan konfigurasinya. Kami perlu memasang semua perangkat pada layar yang lebih sedikit, sehingga kepadatan piksel yang tinggi menjadi persyaratan utama untuk monitor tersebut. Dari monitor 4K yang tersedia di lingkungan kami, kami memilih Lenovo P27u-10 untuk pengujian.
Untuk laptop, kami memilih MacBook Pro 16 inci. Subsistem grafisnya cukup tangguh untuk menangani beberapa layar 4K, dan empat port Tipe-C universal. Anda mungkin bertanya: mengapa tidak desktop? Mengganti laptop dengan laptop identik bawaan jauh lebih mudah dan cepat daripada merakit dan memasang unit sistem yang identik. Bobotnya juga lebih ringan.
Sekarang kami perlu mencari tahu berapa banyak monitor yang realistis untuk dihubungkan ke laptop. Masalahnya di sini bukan jumlah port; kami hanya bisa mengetahuinya dengan menguji seluruh sistem.

Pengujian
Kami berhasil mengatur semua grafik dan peringatan dengan nyaman di empat monitor, bahkan menghubungkannya ke laptop. Namun, kami mengalami masalah. Merender piksel 4x4K pada monitor yang terhubung sangat membebani kartu grafis sehingga baterai laptop terkuras bahkan saat sedang diisi daya. Untungnya, masalah ini teratasi dengan Lenovo ThinkPad Thunderbolt 3 Dock Gen 2. Kami berhasil menghubungkan monitor, catu daya, bahkan mouse dan keyboard favorit kami ke dock.
Namun, masalah lain langsung muncul: GPU berjalan sangat panas sehingga laptop menjadi terlalu panas, yang berarti baterainya juga terlalu panas, menyebabkannya masuk ke mode protektif dan berhenti menerima pengisian daya. Mode ini sebenarnya sangat berguna, melindungi dari situasi berbahaya. Dalam beberapa kasus, masalah ini diatasi dengan perangkat berteknologi tinggi—bolpoin yang diletakkan di bawah laptop untuk meningkatkan ventilasi. Namun, cara ini tidak berhasil untuk semua orang, jadi kami juga menurunkan kecepatan kipas bawaan.
Ada satu fitur yang mengganggu lagi. Semua grafik dan peringatan harus ditempatkan di lokasi yang ditentukan secara ketat. Bayangkan Anda sedang mengemudikan pesawat untuk mendarat—dan tiba-tiba indikator kecepatan udara, altimeter, variometer, indikator sikap, kompas, dan indikator posisi mulai berubah ukuran dan bergerak-gerak. Jadi, kami memutuskan untuk membuat aplikasi untuk membantu hal ini. Dalam satu malam, kami menulisnya di Electron.js, menggunakan program siap pakai. untuk membuat dan mengelola jendela. Kami menambahkan pengendali konfigurasi dan pembaruan berkala, serta dukungan untuk sejumlah monitor terbatas. Beberapa saat kemudian, kami juga menambahkan dukungan untuk beberapa pengaturan.
Perakitan dan pengiriman
Pada hari Senin, para petugas helpdesk telah memberikan kami 40 monitor, sepuluh laptop, dan jumlah docking station yang sama. Saya tidak tahu bagaimana mereka melakukannya, tetapi kami sangat berterima kasih.

Yang tersisa hanyalah mendistribusikannya ke apartemen para administrator yang bertugas. Ini mencakup sepuluh alamat di Moskow: selatan, timur, tengah, dan bahkan Balashikha, 45 kilometer dari kantor (omong-omong, seorang pekerja magang dari Serpukhov kemudian ditambahkan). Semua itu perlu didistribusikan di antara staf dan logistik pun disiapkan.
Saya memasukkan semua alamat ke aplikasi Maps kami, yang juga memiliki opsi untuk mengoptimalkan rute antar titik (saya menggunakan versi beta gratis untuk kurir). Kami membagi tim menjadi empat tim independen yang masing-masing terdiri dari dua orang, dan masing-masing diberi rute sendiri. Kebetulan kendaraan saya memiliki kapasitas paling besar, jadi saya menggunakan peralatan untuk empat karyawan sekaligus.

Seluruh proses pengiriman memakan waktu tiga jam, rekor baru. Kami meninggalkan kantor pukul 22.00 hari Senin. Saya sudah pulang pukul 01.00. Malam itu juga, kami kembali bekerja dengan peralatan baru.
Dengan hasil yang
Alih-alih satu konsol diagnostik besar, kami merakit sepuluh konsol yang relatif portabel di apartemen masing-masing petugas jaga. Tentu saja, masih ada beberapa detail kecil yang perlu diselesaikan. Misalnya, sebelumnya, kami hanya memiliki satu telepon "perangkat keras" untuk petugas jaga untuk notifikasi. Dalam kondisi baru, hal ini tidak berfungsi, jadi kami menciptakan "telepon virtual" untuk petugas jaga (pada dasarnya, saluran dalam aplikasi messenger). Ada juga beberapa perubahan lain. Namun yang terpenting, dalam waktu singkat, kami berhasil memindahkan tidak hanya orang, mengurangi risiko infeksi mereka, tetapi juga semua pekerjaan kami dari rumah tanpa memengaruhi proses atau stabilitas produk. Kami telah bekerja dalam mode ini selama sebulan.
Di bawah ini Anda akan menemukan foto-foto tempat kerja sesungguhnya dari petugas jaga kami.





Sumber: www.habr.com
