Mengapa tim Ilmu Data membutuhkan generalis, bukan spesialis

Mengapa tim Ilmu Data membutuhkan generalis, bukan spesialis
HIROSHI WATANABE/GETTY GAMBAR

Dalam The Wealth of Nations, Adam Smith menunjukkan bagaimana pembagian kerja menjadi sumber utama peningkatan produktivitas. Contohnya adalah jalur perakitan pabrik peniti: “Satu pekerja menarik kawat, pekerja lain meluruskannya, pekerja ketiga memotongnya, pekerja keempat menajamkan ujungnya, pekerja kelima menggiling ujung lainnya agar pas dengan kepala.” Berkat spesialisasi yang berfokus pada fungsi tertentu, setiap karyawan menjadi spesialis berkualifikasi tinggi dalam tugas sempitnya, yang mengarah pada peningkatan efisiensi proses. Output per pekerja meningkat berkali-kali lipat, dan pabrik menjadi lebih efisien dalam memproduksi pin.

Pembagian kerja berdasarkan fungsi ini sudah tertanam dalam pikiran kami bahkan hingga saat ini sehingga kami dengan cepat mengatur tim kami sesuai dengan hal tersebut. Ilmu Data tidak terkecuali. Kemampuan bisnis algoritmik yang kompleks memerlukan banyak fungsi kerja, sehingga perusahaan biasanya membentuk tim spesialis: peneliti, insinyur data, insinyur pembelajaran mesin, ilmuwan sebab-akibat, dan sebagainya. Pekerjaan para spesialis dikoordinasikan oleh manajer produk dengan pengalihan fungsi dengan cara yang menyerupai pabrik pin: “satu orang menerima data, orang lain memodelkannya, orang ketiga melaksanakannya, orang keempat mengukur” dan seterusnya,

Sayangnya, kita tidak boleh mengoptimalkan tim Ilmu Data untuk meningkatkan produktivitas. Namun, Anda melakukan ini ketika Anda memahami apa yang Anda hasilkan: pin atau yang lainnya, dan sekadar berupaya meningkatkan efisiensi. Tujuan dari jalur perakitan adalah untuk menyelesaikan suatu tugas. Kami tahu persis apa yang kami inginkan - pin (seperti dalam contoh Smith), tetapi produk atau layanan apa pun dapat disebutkan yang persyaratannya sepenuhnya menggambarkan semua aspek produk dan perilakunya. Peran karyawan adalah untuk memenuhi persyaratan ini seefisien mungkin.

Namun tujuan Ilmu Data bukanlah untuk menyelesaikan tugas. Sebaliknya, tujuannya adalah untuk mengeksplorasi dan mengembangkan peluang bisnis baru yang kuat. Produk dan layanan algoritmik seperti sistem rekomendasi, interaksi pelanggan, klasifikasi preferensi gaya, ukuran, desain pakaian, optimalisasi logistik, deteksi tren musiman, dan banyak lagi tidak dapat dikembangkan terlebih dahulu. Mereka harus dipelajari. Tidak ada cetak biru yang perlu ditiru, ini adalah kemungkinan-kemungkinan baru dengan ketidakpastian yang melekat. Koefisien, model, tipe model, hyperparameter, semua elemen yang diperlukan harus dipelajari melalui eksperimen, coba-coba, dan pengulangan. Dengan pin, pelatihan dan desain dilakukan sebelum produksi. Dengan Ilmu Data, Anda belajar seperti yang Anda lakukan, bukan sebelumnya.

Di pabrik pin, ketika pelatihan menjadi prioritas utama, kami tidak mengharapkan atau ingin pekerja melakukan improvisasi pada fitur produk apa pun selain meningkatkan efisiensi produksi. Mengkhususkan tugas masuk akal karena mengarah pada efisiensi proses dan konsistensi produksi (tanpa perubahan pada produk akhir).

Namun ketika produk masih berkembang dan tujuannya adalah pelatihan, spesialisasi mengganggu tujuan kami dalam kasus berikut:

1. Meningkatkan biaya koordinasi.

Artinya, biaya-biaya yang terakumulasi selama waktu yang dihabiskan untuk berkomunikasi, berdiskusi, membenarkan dan memprioritaskan pekerjaan yang perlu dilakukan. Skala biaya ini sangat linier dengan jumlah orang yang terlibat. (Seperti yang diajarkan J. Richard Hackman kepada kita, jumlah hubungan r bertambah sama dengan fungsi jumlah suku n menurut persamaan ini: r = (n^2-n)/2. Dan setiap hubungan mengungkapkan sejumlah jumlah suku hubungan biaya.) Ketika ilmuwan data diorganisasikan berdasarkan fungsi, pada setiap tahap, dengan setiap perubahan, setiap serah terima, dll., diperlukan banyak spesialis, sehingga meningkatkan biaya koordinasi. Misalnya, pemodel statistik yang ingin bereksperimen dengan fitur baru harus berkoordinasi dengan teknisi data yang menambahkan kumpulan data setiap kali mereka ingin mencoba sesuatu yang baru. Demikian pula, setiap model baru yang dilatih berarti pengembang model memerlukan seseorang untuk berkoordinasi agar dapat memproduksinya. Biaya koordinasi bertindak sebagai harga untuk iterasi, menjadikannya lebih sulit dan mahal serta lebih besar kemungkinannya menyebabkan penelitian ditinggalkan. Hal ini dapat mengganggu pembelajaran.

2. Membuat waktu tunggu menjadi sulit.

Yang lebih menakutkan daripada biaya koordinasi adalah hilangnya waktu antar shift kerja. Meskipun biaya koordinasi biasanya diukur dalam hitungan jam - waktu yang diperlukan untuk melakukan pertemuan, diskusi, tinjauan desain - waktu tunggu biasanya diukur dalam hitungan hari, minggu, atau bahkan bulan! Jadwal spesialis fungsional sulit untuk diseimbangkan karena setiap spesialis harus didistribusikan ke beberapa proyek. Pertemuan satu jam untuk membahas perubahan bisa memakan waktu berminggu-minggu untuk memperlancar alur kerja. Dan setelah menyetujui perubahan tersebut, perlu untuk merencanakan pekerjaan sebenarnya dalam konteks banyak proyek lain yang menyita waktu kerja para spesialis. Pekerjaan yang melibatkan perbaikan kode atau penelitian yang hanya membutuhkan waktu beberapa jam atau hari untuk diselesaikan mungkin memerlukan waktu lebih lama sebelum sumber daya tersedia. Sampai saat itu tiba, iterasi dan pembelajaran ditangguhkan.

3. Menyempitkan konteksnya.

Pembagian kerja dapat secara artifisial membatasi pembelajaran dengan memberi penghargaan kepada orang-orang yang tetap bertahan dalam bidang keahliannya. Misalnya, seorang ilmuwan riset yang harus tetap berada dalam lingkup fungsinya akan memfokuskan energinya untuk bereksperimen dengan berbagai jenis algoritme: regresi, jaringan saraf, hutan acak, dan sebagainya. Tentu saja, pilihan algoritme yang baik dapat menghasilkan peningkatan bertahap, namun biasanya masih banyak manfaat yang bisa diperoleh dari aktivitas lain, seperti mengintegrasikan sumber data baru. Demikian pula, hal ini akan membantu mengembangkan model yang mengeksploitasi setiap kekuatan penjelas yang melekat pada data. Namun, kekuatannya mungkin terletak pada perubahan fungsi tujuan atau pelonggaran batasan tertentu. Hal ini sulit untuk dilihat atau dilakukan ketika pekerjaannya terbatas. Karena seorang ilmuwan teknis mengkhususkan diri dalam mengoptimalkan algoritme, kecil kemungkinannya dia melakukan hal lain, meskipun hal itu membawa manfaat yang signifikan.

Untuk menyebutkan tanda-tanda yang muncul ketika tim ilmu data bertindak sebagai pabrik pin (misalnya, dalam pembaruan status sederhana): “menunggu perubahan saluran data” dan “menunggu sumber daya ML Eng” adalah penghambat yang umum. Namun, saya yakin pengaruh yang lebih berbahaya adalah apa yang tidak Anda sadari, karena Anda tidak bisa menyesali apa yang belum Anda ketahui. Eksekusi yang sempurna dan rasa puas diri yang diperoleh dari pencapaian efisiensi proses dapat menutupi kenyataan bahwa organisasi tidak menyadari manfaat pembelajaran yang mereka lewatkan.

Solusi untuk masalah ini tentu saja dengan menghilangkan cara pin pabrik. Untuk mendorong pembelajaran dan iterasi, peran data scientist harus bersifat umum namun memiliki tanggung jawab luas yang tidak bergantung pada fungsi teknis, yaitu mengatur data scientist agar dapat dioptimalkan untuk pembelajaran. Ini berarti mempekerjakan “spesialis full-stack”—spesialis umum yang dapat melakukan berbagai fungsi, mulai dari konsep hingga pemodelan, implementasi hingga pengukuran. Penting untuk dicatat bahwa saya tidak menyarankan bahwa mempekerjakan talenta penuh akan mengurangi jumlah karyawan. Sebaliknya, saya hanya akan berasumsi bahwa ketika mereka diorganisasikan secara berbeda, insentif mereka akan lebih selaras dengan manfaat pembelajaran dan kinerja. Misalnya, Anda memiliki tim yang terdiri dari tiga orang dengan tiga keterampilan bisnis. Di pabrik pin, setiap teknisi akan mencurahkan sepertiga waktunya untuk setiap tugas pekerjaan, karena tidak ada orang lain yang dapat melakukan pekerjaannya. Dalam tumpukan penuh, setiap generalis berdedikasi penuh pada keseluruhan proses bisnis, peningkatan skala, dan pelatihan.

Dengan lebih sedikit orang yang mendukung siklus produksi, koordinasi menjadi berkurang. Tipe generalis berpindah antar fitur dengan lancar, memperluas saluran data untuk menambahkan lebih banyak data, mencoba fitur baru dalam model, menerapkan versi baru ke produksi untuk pengukuran sebab akibat, dan mengulangi langkah-langkah secepat ide baru muncul. Tentu saja, station wagon menjalankan fungsi yang berbeda-beda secara berurutan dan tidak paralel. Lagipula, itu hanya satu orang. Namun, menyelesaikan suatu tugas biasanya hanya membutuhkan sebagian kecil dari waktu yang dibutuhkan untuk mengakses sumber daya khusus lainnya. Jadi, waktu iterasinya berkurang.

Generalis kami mungkin tidak memiliki keterampilan seperti spesialis dalam fungsi pekerjaan tertentu, namun kami tidak mengupayakan kesempurnaan fungsional atau peningkatan kecil secara bertahap. Sebaliknya, kami berusaha untuk belajar dan menemukan lebih banyak tantangan profesional dengan dampak bertahap. Dengan konteks holistik untuk solusi menyeluruh, ia melihat peluang yang mungkin dilewatkan oleh seorang spesialis. Dia memiliki lebih banyak ide dan lebih banyak kemungkinan. Dia juga gagal. Namun, biaya kegagalannya rendah dan manfaat pembelajarannya tinggi. Asimetri ini mendorong pengulangan yang cepat dan pembelajaran yang bermanfaat.

Penting untuk dicatat bahwa jumlah otonomi dan keragaman keterampilan yang diberikan kepada para ilmuwan sangat bergantung pada ketahanan platform data tempat mereka bekerja. Platform data yang dirancang dengan baik mengabstraksi ilmuwan data dari kompleksitas containerisasi, pemrosesan terdistribusi, failover otomatis, dan konsep komputasi canggih lainnya. Selain abstraksi, platform data yang kuat dapat menyediakan konektivitas tanpa batas ke infrastruktur eksperimental, mengotomatiskan pemantauan dan peringatan, memungkinkan penskalaan otomatis dan visualisasi hasil algoritmik, dan proses debug. Komponen-komponen ini dirancang dan dibangun oleh para insinyur platform data, artinya komponen-komponen tersebut tidak diteruskan dari ilmuwan data ke tim pengembangan platform data. Spesialis Ilmu Datalah yang bertanggung jawab atas semua kode yang digunakan untuk menjalankan platform.

Saya juga pernah tertarik pada pembagian kerja fungsional dengan menggunakan efisiensi proses, namun melalui trial and error (tidak ada cara yang lebih baik untuk belajar), saya menemukan bahwa peran tertentu memfasilitasi pembelajaran dan inovasi dengan lebih baik serta memberikan metrik yang tepat: menemukan dan membangun lebih banyak peluang bisnis daripada pendekatan khusus. (Cara yang lebih efektif untuk mempelajari pendekatan pengorganisasian ini daripada coba-coba yang saya lalui adalah dengan membaca buku Amy Edmondson, Kolaborasi Tim: Bagaimana Organisasi Belajar, Berinovasi, dan Bersaing dalam Ekonomi Pengetahuan).

Ada beberapa asumsi penting yang mungkin membuat pendekatan pengorganisasian ini lebih atau kurang dapat diandalkan di beberapa perusahaan. Proses iterasi mengurangi biaya trial and error. Jika biaya kesalahan tinggi, Anda mungkin ingin menguranginya (tetapi hal ini tidak disarankan untuk aplikasi medis atau manufaktur). Selain itu, jika Anda berurusan dengan data berukuran petabyte atau exabyte, spesialisasi dalam rekayasa data mungkin diperlukan. Demikian pula, jika mempertahankan kapabilitas bisnis online dan ketersediaannya lebih penting daripada meningkatkannya, maka keunggulan fungsional mungkin mengalahkan pembelajaran. Terakhir, model full stack bergantung pada pendapat orang yang mengetahuinya. Mereka bukan unicorn; Anda dapat menemukannya atau menyiapkannya sendiri. Namun, permintaan mereka tinggi dan menarik serta mempertahankannya memerlukan kompensasi yang kompetitif, nilai-nilai perusahaan yang kuat, dan pekerjaan yang menantang. Pastikan budaya perusahaan Anda dapat mendukung hal tersebut.

Meskipun demikian, saya yakin model tumpukan penuh memberikan kondisi awal terbaik. Mulailah dengan mereka, dan kemudian secara sadar beralih ke pembagian kerja fungsional hanya jika benar-benar diperlukan.

Ada kelemahan lain dari spesialisasi fungsional. Hal ini dapat menyebabkan hilangnya tanggung jawab dan kepasifan pekerja. Smith sendiri mengkritik pembagian kerja, menyatakan bahwa hal itu mengarah pada menumpulkannya bakat, yaitu. pekerja menjadi bodoh dan menarik diri karena peran mereka terbatas pada beberapa tugas yang berulang. Meskipun spesialisasi dapat memberikan efisiensi proses, namun kecil kemungkinannya untuk menginspirasi pekerja.

Pada gilirannya, peran serbaguna memberikan semua hal yang mendorong kepuasan kerja: otonomi, penguasaan, dan tujuan. Otonomi adalah mereka tidak bergantung pada apa pun untuk mencapai kesuksesan. Penguasaan terletak pada keunggulan kompetitif yang kuat. Dan tujuan mereka terletak pada peluang untuk memberikan dampak pada bisnis yang mereka ciptakan. Jika kita bisa membuat orang-orang bersemangat dengan pekerjaan mereka dan memberikan dampak besar pada perusahaan, maka segalanya akan berjalan lancar.

Sumber: www.habr.com

Tambah komentar