Apa yang harus dipikirkan saat menerapkan peralihan tugas

Penulis DevOps yang efektif, Ryn Daniels, berbagi strategi yang dapat digunakan siapa pun untuk menciptakan rotasi Oncall yang lebih baik, tidak membuat frustrasi, dan lebih berkelanjutan.

Apa yang harus dipikirkan saat menerapkan peralihan tugas

Dengan munculnya Devops, banyak insinyur saat ini yang mengatur peralihan dengan satu atau lain cara, yang dulunya merupakan tanggung jawab administrator sistem atau insinyur operasi. Bertugas, apalagi di luar jam kerja, bukanlah tugas yang disukai kebanyakan orang. Tugas oncall dapat mengganggu tidur kita, mengganggu pekerjaan normal yang kita lakukan di siang hari, dan mengganggu kehidupan kita secara umum. Ketika semakin banyak tim yang berpartisipasi dalam acara vigil, kami mengajukan pertanyaan, “Apa yang dapat kita lakukan sebagai individu, tim, dan organisasi untuk membuat vigil menjadi lebih manusiawi dan berkelanjutan?”

Simpan tidur

Seringkali hal pertama yang dipikirkan orang ketika berpikir untuk bertugas adalah bahwa hal itu akan berdampak negatif pada tidur mereka; tidak ada yang menginginkan peringatan untuk membangunkan mereka di tengah malam. Jika organisasi atau tim Anda cukup besar, Anda dapat menggunakan rotasi "ikuti matahari", yaitu tim di beberapa zona waktu berpartisipasi dalam rotasi yang sama, dengan shift tugas yang lebih singkat. sehingga setiap zona waktu hanya akan bertugas selama urusannya (atau setidaknya bangun) jam. Melakukan rotasi seperti itu dapat memberikan manfaat yang luar biasa dalam mengurangi beban kerja malam yang harus dilakukan oleh petugas.

Jika Anda tidak memiliki cukup insinyur dan distribusi geografis untuk mendukung rotasi mengikuti matahari, masih ada beberapa hal yang dapat Anda lakukan untuk mengurangi kemungkinan orang terbangun di tengah malam jika tidak perlu. Lagi pula, bangun dari tempat tidur pada jam 4 pagi adalah satu hal untuk menyelesaikan masalah mendesak yang dihadapi pelanggan; Lain halnya jika Anda bangun hanya dan mendapati bahwa Anda sedang menghadapi alarm palsu. Akan membantu jika Anda meninjau semua peringatan yang telah Anda siapkan dan bertanya kepada tim Anda peringatan mana yang benar-benar diperlukan untuk membangunkan seseorang setelah jam kerja, dan apakah peringatan tersebut dapat menunggu hingga pagi hari. Mungkin sulit untuk membuat orang setuju untuk mematikan beberapa peringatan yang tidak berfungsi, terutama jika masalah yang terlewat telah menyebabkan masalah di masa lalu, namun penting untuk diingat bahwa insinyur yang kurang tidur bukanlah insinyur yang paling efektif. Atur peringatan ini selama jam kerja ketika hal tersebut benar-benar penting. Sebagian besar alat peringatan saat ini memungkinkan Anda mengatur aturan berbeda untuk notifikasi di luar jam kerja, baik itu periode notifikasi Nagios atau mengatur jadwal berbeda di PagerDuty.

Tidur, tugas, dan budaya tim

Solusi lain terhadap gangguan tidur melibatkan perubahan budaya yang lebih besar. Salah satu cara untuk mengatasi masalah ini adalah dengan memantau peringatan, memberikan perhatian khusus pada kapan peringatan tersebut tiba dan apakah peringatan tersebut dapat ditindaklanjuti. Mingguan operasional adalah alat yang dibuat dan diterbitkan oleh Etsy yang memungkinkan tim melacak dan mengkategorikan peringatan yang mereka terima. Ini dapat menghasilkan grafik yang menunjukkan berapa banyak peringatan yang membangunkan orang (menggunakan data tidur dari pelacak kebugaran), serta berapa banyak peringatan yang benar-benar memerlukan tindakan manusia. Dengan menggunakan teknologi ini, Anda dapat melacak efektivitas rotasi panggilan Anda dan dampaknya terhadap tidur dari waktu ke waktu.

Tim dapat berperan untuk memastikan setiap orang yang bertugas mendapatkan istirahat yang cukup. Ciptakan budaya yang mendorong orang untuk menjaga diri mereka sendiri: jika Anda kurang tidur karena dipanggil di malam hari, Anda dapat tidur lebih lama di pagi hari untuk mencoba mengganti waktu tidur yang hilang. Anggota tim dapat saling menjaga: Saat tim berbagi data tidur mereka satu sama lain melalui sesuatu seperti Opsweekly, mereka dapat menemui rekan kerja mereka dan berkata, “Hei, sepertinya Anda mengalami malam yang sulit dengan PagerDuty tadi malam.” “Apakah kamu ingin aku melindungimu malam ini agar kamu bisa beristirahat?” Dorong masyarakat untuk saling mendukung dengan cara ini dan cegah “budaya pahlawan” di mana masyarakat akan memaksakan diri hingga batasnya dan menghindari meminta bantuan.

Mengurangi dampak tugas di tempat kerja

Ketika para insinyur lelah karena terbangun saat bertugas, mereka jelas tidak akan bekerja dengan kapasitas 100% pada hari itu, namun bahkan tanpa memperhitungkan kurang tidur, bertugas juga dapat berdampak lain pada pekerjaan. Salah satu kerugian paling signifikan selama bertugas adalah karena faktor interupsi, perubahan konteks: satu interupsi dapat mengakibatkan hilangnya setidaknya 20 menit karena hilangnya fokus dan peralihan konteks. Kemungkinan besar tim Anda akan mendapat sumber gangguan lain, seperti tiket yang dibuat oleh tim lain, permintaan atau pertanyaan yang datang melalui obrolan dan/atau email. Bergantung pada volume gangguan lainnya, Anda dapat mempertimbangkan untuk menambahkannya ke rotasi yang ada saat bertugas atau menyiapkan rotasi kedua hanya untuk menangani permintaan lainnya.

Penting untuk mempertimbangkan hal ini ketika Anda merencanakan pekerjaan yang akan dilakukan tim, baik jangka panjang maupun jangka pendek. Jika tim Anda cenderung memiliki pergantian tugas yang cukup intens, fakta ini perlu dipertimbangkan dalam perencanaan jangka panjang, karena Anda mungkin menghadapi situasi di mana seluruh staf secara efektif bertugas pada waktu tertentu, dibandingkan melakukan pekerjaan lain. Dalam perencanaan jangka pendek, Anda mungkin menemukan bahwa petugas panggilan tidak dapat memenuhi tenggat waktu karena tanggung jawab panggilan mereka - hal ini sudah diduga dan anggota tim lainnya harus bersedia mengakomodasi dan membantu memastikan bahwa pekerjaan tersebut selesai dan orang yang siap dipanggil didukung dalam tugas pekerjaannya. Terlepas dari apakah orang yang dipanggil dipanggil, shift yang dipanggil akan berdampak pada kemampuan orang yang dipanggil untuk melakukan pekerjaan lain—jangan berharap orang yang dipanggil itu bekerja malam untuk menyelesaikan proyek yang dijadwalkan selain menjadi bertugas setelah jam kerja.

Tim harus menemukan cara untuk mengatasi pekerjaan ekstra yang dihasilkan saat bertugas. Pekerjaan ini dapat berupa pekerjaan nyata untuk memperbaiki masalah nyata yang terdeteksi oleh sistem pemantauan dan peringatan, atau dapat juga berupa pekerjaan untuk memperbaiki pemantauan dan peringatan guna mengurangi jumlah peringatan positif palsu. Apa pun jenis pekerjaan yang dilakukan, penting untuk mendistribusikan pekerjaan tersebut secara adil dan berkelanjutan ke seluruh tim. Tidak semua giliran kerja yang dipanggil diciptakan sama, dan ada yang lebih kompleks dibandingkan yang lain, sehingga menyatakan bahwa orang yang menerima peringatan adalah orang yang bertanggung jawab untuk menangani semua konsekuensi dari pemberitahuan tersebut dapat mengakibatkan distribusi pekerjaan yang tidak merata. Mungkin lebih masuk akal jika orang yang bertugas bertanggung jawab menjadwalkan atau mendistribusikan pekerjaan, dengan harapan anggota tim lainnya bersedia membantu menyelesaikan pekerjaan yang dibuat.

Menciptakan dan menjaga keseimbangan kehidupan kerja

Pikirkan tentang dampak tugas terhadap kehidupan Anda di luar pekerjaan. Saat Anda sedang bertugas, kemungkinan besar Anda akan merasa terikat dengan ponsel dan laptop Anda, artinya Anda selalu membawa laptop dan router seluler (modem usb) atau sekadar tidak keluar rumah/kantor. Menjadi siap dihubungi biasanya berarti melepaskan hal-hal seperti bertemu teman atau keluarga selama giliran kerja Anda. Artinya lamanya setiap shift bergantung pada jumlah orang di tim Anda, dan frekuensi shift dapat memberikan beban yang tidak semestinya pada orang-orang. Anda mungkin perlu bereksperimen dengan durasi dan waktu giliran kerja Anda untuk menemukan jadwal yang sesuai untuk setidaknya sebagian besar orang yang terlibat, karena tim dan orang yang berbeda akan memiliki prioritas dan preferensi yang berbeda.

Penting untuk menyadari dampak tugas terhadap kehidupan masyarakat, baik pada tingkat manajemen maupun individu. Perlu dicatat bahwa dampaknya akan dirasakan secara tidak proporsional oleh masyarakat yang kurang beruntung. Misalnya, jika Anda harus meluangkan waktu untuk mengurus anak-anak atau anggota keluarga lainnya, atau jika Anda mendapati bahwa sebagian besar pekerjaan rumah berada di pundak Anda, Anda sudah memiliki lebih sedikit waktu dan energi dibandingkan seseorang yang tidak memiliki tanggung jawab. Jenis pekerjaan “shift kedua” atau “shift ketiga” ini cenderung memberikan dampak yang tidak proporsional terhadap orang-orang, dan jika Anda menetapkan rotasi panggilan dengan jadwal atau intensitas yang mengasumsikan peserta tidak memiliki kehidupan pribadi di luar kantor, Anda membatasi orang-orang yang dapat berpartisipasi dalam tim Anda.

Dorong orang untuk mencoba mempertahankan lebih banyak jadwal rutin mereka. Anda harus mempertimbangkan untuk menyediakan router seluler (modem usb) kepada tim sehingga orang dapat meninggalkan rumah dengan laptop mereka dan tetap memiliki kehidupan yang serupa. Dorong orang-orang untuk bertukar jam kerja satu sama lain, jika perlu, untuk jangka waktu yang singkat sehingga orang-orang dapat pergi ke pusat kebugaran atau menemui dokter saat bertugas. Jangan menciptakan budaya yang menganggap bahwa siap dipanggil berarti para insinyur tidak melakukan apa pun selain siap dipanggil. Keseimbangan kehidupan kerja adalah bagian penting dari pekerjaan apa pun, namun terutama ketika Anda mempertimbangkan jam di luar jam kerja, anggota tim Anda yang lebih senior harus memberikan contoh bagi orang lain dalam hal keseimbangan kehidupan kerja, sebisa mungkin saat bertugas.

Pada tingkat individu, jangan lupa untuk menjelaskan apa artinya bertugas bagi teman, keluarga, pasangan, hewan peliharaan, dll. (kucing Anda mungkin tidak akan peduli karena mereka sudah bangun jam 4 pagi saat Anda mendapat peringatan , meskipun mereka sama sekali tidak ingin membantu Anda menyelesaikannya). Pastikan Anda mengganti waktu yang hilang setelah shift Anda berakhir, entah itu untuk bertemu teman, keluarga, atau tidur, misalnya. Jika bisa, pertimbangkan untuk memasang alarm senyap (seperti jam tangan pintar) yang dapat membangunkan Anda dengan mendengungkan pergelangan tangan Anda sehingga Anda tidak membangunkan siapa pun di sekitar Anda. Temukan cara untuk menjaga diri sendiri saat Anda berada di tengah-tengah tugas jaga dan setelah selesai. Anda mungkin ingin menyiapkan “perlengkapan bertahan hidup saat dipanggil” yang akan membantu Anda bersantai: mendengarkan playlist musik favorit Anda, membaca buku favorit, atau meluangkan waktu untuk bermain dengan hewan peliharaan Anda. Manajer harus mendorong kepedulian diri dengan memberi karyawan satu hari libur setelah seminggu bertugas dan memastikan karyawan meminta (dan mendapatkan) bantuan saat mereka membutuhkannya.

Meningkatkan pengalaman tugas

Secara keseluruhan, bertugas tidak boleh hanya dilihat sebagai pekerjaan yang buruk: Anda memiliki kesempatan dan tanggung jawab sebagai orang yang bertugas untuk secara aktif bekerja demi kebaikan orang-orang yang akan bertugas di masa depan, yang berarti bahwa orang-orang akan menerima lebih sedikit pesan dan lebih akurat. Sekali lagi, melacak nilai peringatan Anda menggunakan sesuatu seperti Opsweekly dapat membantu Anda mengetahui apa yang membuat panggilan Anda mengganggu dan memperbaikinya. Untuk lansiran yang tidak aktif, tanyakan pada diri Anda apakah ada cara untuk menghilangkan lansiran ini - mungkin ini berarti lansiran tersebut hanya akan berbunyi selama jam kerja, karena ada beberapa hal yang tidak perlu Anda tanggapi di tengah malam. Jangan takut untuk menghapus peringatan, mengubahnya, atau mengubah metode pengiriman dari "kirim ke telepon dan email" menjadi "hanya email". Eksperimen dan iterasi adalah kunci untuk meningkatkan tugas dari waktu ke waktu.

Untuk peringatan yang benar-benar dapat ditindaklanjuti, Anda harus mempertimbangkan betapa mudahnya bagi teknisi untuk mengambil tindakan yang diperlukan. Setiap pemberitahuan yang berjalan harus memiliki runbook yang menyertainya - pertimbangkan untuk menggunakan alat seperti nagios-herald untuk menambahkan tautan runbook ke pemberitahuan Anda. Jika peringatannya cukup sederhana sehingga tidak memerlukan runbook, mungkin cukup sederhana sehingga Anda bisa mengotomatiskan respons menggunakan sesuatu seperti pengendali peristiwa Nagios, sehingga orang tidak perlu bangun atau mengganggu diri mereka sendiri untuk melakukan tugas yang mudah diotomatisasi. Runbook dan nagios-herald dapat membantu Anda menambahkan konteks berharga pada peringatan Anda, yang akan membantu orang meresponsnya dengan lebih efektif. Lihat apakah Anda dapat menjawab pertanyaan umum seperti: Kapan terakhir kali peringatan ini berbunyi? Siapa yang terakhir kali menjawabnya, dan tindakan apa yang akhirnya mereka ambil (jika ada)? Peringatan lain apa yang muncul bersamaan dengan ini dan apakah ada kaitannya? Informasi kontekstual seperti ini sering kali hanya tersimpan di benak manusia, sehingga mendorong budaya mendokumentasikan dan berbagi informasi kontekstual dapat mengurangi jumlah biaya yang diperlukan untuk merespons peringatan.

Bagian terbesar dari kelelahan yang timbul akibat panggilan telepon adalah bahwa panggilan tersebut tidak pernah berakhir—jika tim Anda memiliki panggilan telepon, kemungkinan besar panggilan tersebut tidak akan berakhir kapan pun dalam waktu dekat. Pergeseran ini tidak pernah berakhir, dan kita mungkin merasa perubahan itu akan selalu buruk. Kurangnya harapan ini adalah masalah mental besar yang dapat menyebabkan stres dan kelelahan, jadi mengatasi persepsi (selain kenyataan) bahwa tugas akan selalu buruk adalah cara yang baik untuk mulai memikirkan tugas Anda dalam jangka panjang.

Untuk memberikan harapan kepada masyarakat bahwa situasi tugas akan semakin membaik, diperlukan sistem yang dapat diamati (pelacakan dan kategorisasi tugas yang sama seperti yang saya sebutkan sebelumnya). Pantau berapa banyak peringatan yang Anda dapatkan, berapa persentasenya yang memerlukan intervensi petugas, berapa banyak peringatan yang membangunkan orang, dan kemudian berupaya menciptakan budaya yang mendorong orang untuk melakukan sesuatu dengan lebih baik. Jika Anda memiliki tim yang besar, Anda mungkin tergoda, segera setelah jam kerja Anda berakhir, untuk angkat tangan dan berkata "itu masalah petugas jaga di masa depan" daripada menggali lebih dalam untuk memperbaiki sesuatu - yang ingin menghabiskan lebih banyak uang upaya bertugas daripada yang dibutuhkan dari mereka? Di sinilah budaya empati dapat membuat perbedaan besar, karena Anda tidak hanya memperhatikan kesejahteraan Anda saat bertugas, namun juga rekan kerja Anda.

Ini semua tentang empati

Empati adalah bagian penting yang memungkinkan kami mendorong kinerja yang meningkatkan pengalaman panggilan. Sebagai manajer atau anggota, Anda dapat mengevaluasi secara positif atau bahkan memberi penghargaan kepada orang-orang atas perilaku yang membuat perubahan menjadi lebih baik. Dukungan operasi adalah salah satu bidang di mana para insinyur sering merasa seolah-olah orang-orang hanya memberikan perhatian kepada mereka ketika terjadi kesalahan: orang-orang akan berada di sana untuk meneriaki mereka ketika sebuah lokasi mengalami kerusakan, namun mereka jarang belajar tentang upaya di balik layar yang dilakukan operasi. para insinyur berusaha menjaga situs tetap berjalan sepanjang waktu. Mengenali pekerjaan bisa sangat bermanfaat, baik itu berterima kasih kepada seseorang dalam rapat atau melalui email umum karena telah meningkatkan peringatan tertentu, aspek teknis dalam bertugas, atau memberi seseorang waktu untuk menggantikan teknisi lain yang sedang bertugas untuk sementara waktu.

Mendorong masyarakat untuk meluangkan waktu dan upaya untuk memperbaiki situasi on-call mereka dalam jangka panjang. Jika tim Anda mempunyai panggilan, Anda harus merencanakan dan memprioritaskan pekerjaan ini dengan cara yang sama seperti Anda melakukan pekerjaan lain di peta jalan Anda. Panggilan masuk adalah 90% entropi, dan kecuali Anda secara aktif berupaya memperbaikinya, hal itu akan menjadi semakin buruk seiring berjalannya waktu. Bekerjalah dengan tim Anda untuk mencari tahu apa yang paling memotivasi dan memberi penghargaan kepada orang-orang, lalu gunakan hal tersebut untuk mendorong orang-orang mengurangi kebisingan peringatan, menulis runbook, dan membuat alat yang memecahkan masalah panggilan mereka. Apa pun yang Anda lakukan, jangan menganggap tugas buruk sebagai bagian permanen dari keadaan.

Sumber: www.habr.com

Tambah komentar