Bagaimana Kami Mengubah Status Selalu Terhubung untuk Mencegah Kejenuhan

Terjemahan artikel disiapkan khusus untuk mahasiswa kursus tersebut "Praktik dan alat DevOps".

Bagaimana Kami Mengubah Status Selalu Terhubung untuk Mencegah Kejenuhan

Misi Interkom adalah mempersonalisasi bisnis online. Namun Anda tidak dapat mempersonalisasi suatu produk jika produk tersebut tidak berfungsi. bagaimana caranya?. Kinerja sangat penting bagi keberhasilan bisnis kami, bukan hanya karena klien kami membayar kami, namun juga karena kami sendiri yang menggunakannya dengan produk Anda. Jika layanan kami tidak berfungsi, kami benar-benar merasakan penderitaan pelanggan kami.

Kelancaran pengoperasian bergantung pada banyak faktor, seperti arsitektur perangkat lunak dan kualitas pekerjaan sehari-hari. Namun, seringkali semuanya bermuara pada kenyataan bahwa orang yang selalu berhubungan menjawab panggilan dari PagerDuty. Dukungan teknis semacam ini dapat menjadi alat yang berpusat pada pelanggan yang menggabungkan bantuan teknisi dengan apa yang pelanggan dapatkan saat mereka membeli produk Anda. Ini juga merupakan kesempatan besar untuk belajar dan berkembang, karena bagaimanapun juga, kegagalan dan kesalahan dapat menjadi kesempatan yang baik untuk melatih keterampilan dan memahami mekanisme kerja yang kompleks.

Menjadi “selalu aktif” di luar jam kerja berdampak buruk pada kehidupan Anda.

Namun di saat yang sama, sikap “selalu aktif” dapat berdampak buruk pada hidup Anda. Anda harus siap merespons peringatan bahwa ada sesuatu yang rusak dengan cepat dan kompeten. Meskipun Anda tidak sedang dihubungi pada saat tertentu, sikap "selalu aktif" dapat menimbulkan kecemasan, seperti yang saya ketahui dari pengalaman pribadi. Karena itu, kualitas tidur sangat menurun. Berada di zona akses secara teratur setiap saat sepanjang hari dapat menyebabkan kelelahan, apatis, atau, secara umum, keinginan untuk tidak pernah melihat komputer lagi.

Sejarah status “selalu terhubung” di Interkom

Pada masa-masa awal Intercom, Direktur Teknis kami, Ciaran, sendirian memberikan dukungan teknis XNUMX/XNUMX kepada seluruh tim, baik di dalam maupun di luar kantor. Seiring berkembangnya Intercom, gugus tugas dibentuk untuk membantu Ciaran. Segera setelah itu, tim pengembangan baru mulai menciptakan banyak fitur dan layanan baru, dan mereka mengambil alih semua tanggung jawab dukungan teknis.

Ada terlalu banyak orang yang “siap dipanggil” pada saat tertentu.

Pada saat itu, pendekatan ini tampak mudah karena merupakan cara mudah untuk meningkatkan skala tim dukungan teknis kami dalam waktu singkat, selaras dengan nilai-nilai kami, dan sesuai dengan kebutuhan kami. rasa memiliki. Pada akhirnya, tanpa rencana apa pun, kami memiliki empat atau lima tim yang secara teratur menghubungi klien di luar jam kerja mereka. Tim pengembangan lainnya tidak mempunyai banyak masalah rumit yang dapat menimbulkan kesalahan, sehingga mereka jarang, atau bahkan pernah, dipanggil.

Kami menyadari bahwa kami berada dalam situasi di mana kami memiliki mekanisme dukungan teknis yang tidak dapat kami banggakan, dan sejumlah masalah kritis yang ingin kami perbaiki, seperti:

  • Ada terlalu banyak orang yang siap menerima tantangan ini pada waktu tertentu. Infrastruktur kami tidak cukup besar untuk memerlukan minimal lima insinyur pengembangan untuk bekerja tanpa hari libur reguler.
  • Kualitas alarm dan prosedur panggilan kami tidak konsisten di seluruh tim, dan kami menggunakan proses ad hoc untuk meninjau peringatan masalah baru dan yang sudah ada. Instruksi dalam runbook (yang harus diikuti saat diberitahu adanya masalah) sebagian besar terlihat jelas karena ketidakhadirannya.
  • Bergantung pada tim tempat para insinyur bekerja, mereka memiliki ekspektasi yang bertentangan. Misalnya, hanya tim dukungan teknis pertama yang mendapat kompensasi atas shift kerja dan gangguan akhir pekan.
  • Tampaknya ada tingkat toleransi umum terhadap panggilan yang tidak diperlukan pada jam-jam tertentu.
  • Terakhir, jenis pekerjaan ini bukan untuk semua orang. Keadaan hidup terkadang menunjukkan bahwa peralihan tugas tidak memberikan pengaruh terbaik bagi masyarakat.

Menemukan status “selalu aktif” yang tepat

Kami memutuskan untuk membuat tim virtual baru yang akan melakukan pekerjaan dukungan teknis untuk setiap tim di luar jam kerja. Tim akan terdiri dari sukarelawan, bukan wajib militer dari tim mana pun dalam organisasi. Insinyur di tim virtual dirotasi kira-kira setiap enam bulan, menghabiskan waktu berminggu-minggu untuk “siap dipanggil”. Untungnya, kami tidak kesulitan menemukan cukup sukarelawan untuk membentuk tim virtual.

Akibatnya, tim dukungan kami berkurang dari 30 orang menjadi hanya 6 atau 7 orang.

Tim kemudian menyetujui dan menentukan tampilan pemberitahuan dan deskripsi masalah di runbook, serta menjelaskan proses meneruskan pemberitahuan ke tim dukungan baru. Mereka mendefinisikan semua peringatan dalam kode menggunakan modul Terraform, dan mulai menggunakan tinjauan sejawat untuk setiap perubahan. Kami memperkenalkan tingkat kompensasi untuk shift mingguan yang cukup memuaskan bagi petugas jaga. Kami juga menciptakan tim eskalasi tingkat kedua yang hanya terdiri dari para manajer. Tim ini harus menjadi titik eskalasi bagi para teknisi dukungan teknis.

Kami menjalani kerja keras selama beberapa bulan, di mana kami membangun proses ini, sebagai hasilnya, sekarang tidak ada 30 insinyur yang dipanggil seperti sebelumnya, tetapi hanya 6 atau 7. Selama jam kerja, tim secara mandiri menangani masalah pada fungsi atau fungsi mereka. layanan, pada waktu ini biasanya terjadi jumlah kerusakan terbesar, namun pada waktu lain, dukungan teknis disediakan oleh sukarelawan.

Apa yang kami pelajari

Setelah kami meluncurkan tim dukungan teknis virtual, kami memperkirakan akan ada banyak tugas baru, seperti menyelidiki penyebab masalah atau berkumpul untuk memecahkan satu masalah yang menyebabkan pemadaman listrik. Namun, tim pengembangan kami bertanggung jawab penuh atas faktor-faktor yang menyebabkan kegagalan, dan respons apa pun biasanya bersifat langsung. Kami juga perlu menghindari situasi di mana tugas konsultasi teknis akan dikirim kembali ke tim asal tugas tersebut, agar tidak memaksa teknisi untuk menghubungi setelah jam kerja.

Jumlah panggilan di luar jam kerja telah menurun menjadi kurang dari 10 panggilan per bulan.

Proses eskalasi kami jarang digunakan secara formal. Kepercayaan yang lebih umum adalah bahwa teknisi tersebut secara tidak resmi dibantu oleh tim yang sedang online, terutama orang-orang kami di kantor San Francisco. Banyak masalah yang dihilangkan atau dikurangi melalui kerja tim dan menyelesaikannya dengan cepat.

Insinyur di kantor kami di San Francisco bergabung dengan tim secara penuh waktu dan melampaui dukungan teknis pada umumnya. Kami dihadapkan pada sejumlah biaya overhead, namun menyebarkan keanggotaan tim dukungan kami di beberapa kantor memberikan keuntungan bagi kami karena ini terbukti menjadi cara yang baik untuk membangun hubungan, memperkuat mereka, dan mempelajari lebih lanjut tentang rangkaian teknologi yang kami gunakan.

Pekerjaan pengembang Interkom menjadi lebih konsisten di tim kami, dan kami dengan percaya diri dapat berbicara tentang manfaat menjadi insinyur sistem di situs kami Karir, menyatakan bahwa tidak perlu selalu terhubung kecuali Anda menginginkannya.

Seiring dengan upaya mendasar untuk menstabilkan dan menskalakan penyimpanan data kami, fokus berkelanjutan pada penyelesaian masalah telah menyebabkan jumlah panggilan di luar jam kerja turun menjadi kurang dari 10 panggilan per bulan. Kami sangat bangga dengan angka ini.

Kami terus berupaya mempertahankan dan meningkatkan tim dukungan teknis kami, dan seiring berkembangnya Intercom, kami mungkin harus mempertimbangkan kembali keputusan kami, karena apa yang berhasil saat ini belum tentu berhasil di lain waktu staf kami berlipat ganda. Namun, pengalaman ini sangat positif bagi organisasi kami dan telah meningkatkan kualitas hidup para teknisi pengembangan kami, kualitas tanggapan kami terhadap panggilan, dan yang paling penting, pengalaman pelanggan kami.

Sumber: www.habr.com

Tambah komentar