Mengapa pasukan Sains Data memerlukan pakar umum, bukan pakar

Mengapa pasukan Sains Data memerlukan pakar umum, bukan pakar
GAMBAR HIROSHI WATANABE/GETTY

Dalam The Wealth of Nations, Adam Smith menunjukkan bagaimana pembahagian kerja menjadi sumber utama peningkatan produktiviti. Contohnya ialah barisan pemasangan kilang pin: "Seorang pekerja menarik wayar, seorang lagi meluruskannya, yang ketiga memotongnya, yang keempat mengasah hujungnya, yang kelima mengisar hujung yang lain agar sesuai dengan kepala." Terima kasih kepada pengkhususan yang tertumpu pada fungsi tertentu, setiap pekerja menjadi pakar yang berkelayakan tinggi dalam tugasnya yang sempit, yang membawa kepada peningkatan kecekapan proses. Output setiap pekerja meningkat berkali-kali ganda, dan kilang menjadi lebih cekap dalam menghasilkan pin.

Pembahagian kerja mengikut fungsi ini begitu tertanam dalam fikiran kami sehingga hari ini kami dengan cepat mengatur pasukan kami dengan sewajarnya. Sains Data tidak terkecuali. Keupayaan perniagaan algoritmik yang kompleks memerlukan pelbagai fungsi kerja, jadi syarikat biasanya mewujudkan pasukan pakar: penyelidik, jurutera data, jurutera pembelajaran mesin, saintis sebab-akibat dan sebagainya. Kerja pakar diselaraskan oleh pengurus produk dengan pemindahan fungsi dengan cara yang menyerupai kilang pin: "satu orang menerima data, yang lain memodelkannya, yang ketiga melaksanakannya, langkah keempat" dan seterusnya,

Malangnya, kami tidak sepatutnya mengoptimumkan pasukan Sains Data kami untuk meningkatkan produktiviti. Walau bagaimanapun, inilah yang anda lakukan apabila anda memahami perkara yang anda hasilkan: pin atau sesuatu yang lain, dan hanya berusaha untuk meningkatkan kecekapan. Tujuan talian pemasangan adalah untuk menyelesaikan tugas. Kami tahu dengan tepat apa yang kami mahu - pin (seperti dalam contoh Smith), tetapi sebarang produk atau perkhidmatan boleh disebut di mana keperluannya menerangkan sepenuhnya semua aspek produk dan kelakuannya. Peranan pekerja adalah untuk memenuhi keperluan ini secekap mungkin.

Tetapi matlamat Sains Data bukanlah untuk menyelesaikan tugas. Sebaliknya, matlamatnya adalah untuk meneroka dan membangunkan peluang perniagaan baharu yang kukuh. Produk dan perkhidmatan algoritma seperti sistem pengesyoran, interaksi pelanggan, klasifikasi pilihan gaya, saiz, reka bentuk pakaian, pengoptimuman logistik, pengesanan trend bermusim dan banyak lagi tidak boleh dibangunkan terlebih dahulu. Mereka mesti dipelajari. Tiada pelan tindakan untuk ditiru, ini adalah kemungkinan baharu dengan ketidakpastian yang wujud. Pekali, model, jenis model, hiperparameter, semua elemen yang diperlukan mesti dipelajari melalui eksperimen, percubaan dan kesilapan, dan pengulangan. Dengan pin, latihan dan reka bentuk dilakukan sebelum pengeluaran. Dengan Sains Data, anda belajar seperti yang anda lakukan, bukan sebelum ini.

Di kilang pin, apabila latihan diutamakan, kami tidak mengharapkan atau mahu pekerja menambah baik mana-mana ciri produk selain untuk meningkatkan kecekapan pengeluaran. Tugas pengkhususan masuk akal kerana ia membawa kepada kecekapan proses dan konsistensi pengeluaran (tanpa perubahan pada produk akhir).

Tetapi apabila produk masih berkembang dan matlamatnya adalah latihan, pengkhususan mengganggu matlamat kami dalam kes berikut:

1. Ia meningkatkan kos penyelarasan.

Iaitu, kos yang terkumpul sepanjang masa berkomunikasi, berbincang, mewajarkan dan mengutamakan kerja yang perlu dilakukan. Kos ini berskala super-linear dengan bilangan orang yang terlibat. (Seperti yang diajarkan J. Richard Hackman kepada kita, bilangan perhubungan r berkembang sama dengan fungsi bilangan sebutan n mengikut persamaan ini: r = (n^2-n)/2. Dan setiap perhubungan mendedahkan beberapa jumlah hubungan kos.) Apabila saintis data disusun mengikut fungsi, pada setiap peringkat, dengan setiap perubahan, setiap penyerahan, dsb., ramai pakar diperlukan, yang meningkatkan kos penyelarasan. Contohnya, pemodel statistik yang ingin mencuba ciri baharu perlu menyelaraskan dengan jurutera data yang menambah set data setiap kali mereka ingin mencuba sesuatu yang baharu. Begitu juga, setiap model baharu yang dilatih bermakna pembangun model memerlukan seseorang untuk diselaraskan untuk memasukkannya ke dalam pengeluaran. Kos penyelarasan bertindak sebagai harga untuk lelaran, menjadikannya lebih sukar dan mahal serta lebih berkemungkinan menyebabkan kajian terbengkalai. Ini mungkin mengganggu pembelajaran.

2. Ia menyukarkan masa menunggu.

Lebih menakutkan daripada kos penyelarasan ialah masa yang hilang antara syif kerja. Walaupun kos penyelarasan biasanya diukur dalam jam - masa yang diperlukan untuk menjalankan mesyuarat, perbincangan, semakan reka bentuk - masa menunggu biasanya diukur dalam hari, minggu atau bulan! Jadual pakar fungsional sukar diimbangi kerana setiap pakar mesti diedarkan merentasi berbilang projek. Mesyuarat selama satu jam untuk membincangkan perubahan boleh mengambil masa beberapa minggu untuk melancarkan aliran kerja. Dan selepas bersetuju dengan perubahan, adalah perlu untuk merancang kerja sebenar itu sendiri dalam konteks banyak projek lain yang menduduki masa kerja pakar. Kerja yang melibatkan pembetulan kod atau penyelidikan yang hanya mengambil masa beberapa jam atau hari untuk disiapkan mungkin mengambil masa lebih lama sebelum sumber tersedia. Sehingga itu, lelaran dan pembelajaran digantung.

3. Ia menyempitkan konteks.

Pembahagian kerja boleh mengehadkan pembelajaran secara buatan dengan memberi ganjaran kepada orang ramai untuk kekal dalam kepakaran mereka. Sebagai contoh, seorang saintis penyelidikan yang mesti berada dalam skop fungsinya akan menumpukan tenaganya untuk bereksperimen dengan pelbagai jenis algoritma: regresi, rangkaian saraf, hutan rawak dan sebagainya. Sudah tentu, pilihan algoritma yang baik boleh membawa kepada peningkatan tambahan, tetapi lazimnya banyak lagi yang boleh diperoleh daripada aktiviti lain, seperti menyepadukan sumber data baharu. Begitu juga, ia akan membantu membangunkan model yang mengeksploitasi setiap sedikit kuasa penjelasan yang wujud dalam data. Walau bagaimanapun, kekuatannya mungkin terletak pada mengubah fungsi objektif atau melonggarkan kekangan tertentu. Ini sukar dilihat atau dilakukan apabila kerjanya terhad. Oleh kerana seorang saintis teknikal pakar dalam mengoptimumkan algoritma, dia kurang berkemungkinan melakukan perkara lain, walaupun ia membawa faedah yang ketara.

Untuk menamakan tanda yang muncul apabila pasukan sains data bertindak sebagai kilang pin (contohnya, dalam kemas kini status mudah): "menunggu perubahan saluran paip data" dan "menunggu sumber ML Eng" adalah penyekat biasa. Walau bagaimanapun, saya percaya pengaruh yang lebih berbahaya ialah apa yang anda tidak perasan, kerana anda tidak boleh menyesali apa yang anda belum tahu. Pelaksanaan yang sempurna dan rasa puas hati yang diperoleh daripada mencapai kecekapan proses boleh menutupi kebenaran bahawa organisasi tidak menyedari manfaat pembelajaran yang mereka terlepas pandang.

Penyelesaian kepada masalah ini, sudah tentu, adalah untuk menyingkirkan kaedah pin kilang. Untuk menggalakkan pembelajaran dan lelaran, peranan saintis data harus generik tetapi dengan tanggungjawab yang luas bebas daripada fungsi teknikal, iaitu mengatur saintis data supaya mereka dioptimumkan untuk pembelajaran. Ini bermakna mengupah "pakar tindanan penuh"β€”pakar am yang boleh melaksanakan pelbagai fungsi, daripada konsep kepada pemodelan, pelaksanaan kepada pengukuran. Adalah penting untuk ambil perhatian bahawa saya tidak mencadangkan pengambilan tenaga kerja penuh harus mengurangkan bilangan pekerja. Sebaliknya, saya hanya akan menganggap bahawa apabila mereka disusun secara berbeza, insentif mereka lebih sejajar dengan faedah pembelajaran dan prestasi. Sebagai contoh, katakan anda mempunyai pasukan tiga orang dengan tiga kemahiran perniagaan. Di kilang pin, setiap juruteknik akan menumpukan satu pertiga daripada masanya untuk setiap tugas kerja, kerana tiada orang lain yang boleh melakukan tugasnya. Dalam susunan penuh, setiap generalis berdedikasi sepenuhnya untuk keseluruhan proses perniagaan, peningkatan dan latihan.

Dengan lebih sedikit orang yang menyokong kitaran pengeluaran, koordinasi dikurangkan. Ahli generalis bergerak lancar antara ciri, mengembangkan saluran paip data untuk menambah lebih banyak data, mencuba ciri baharu dalam model, menggunakan versi baharu pada pengeluaran untuk pengukuran kausal dan mengulangi langkah secepat idea baharu muncul. Sudah tentu, gerabak stesen melaksanakan fungsi yang berbeza secara berurutan dan tidak selari. Lagipun, ia hanya seorang. Walau bagaimanapun, menyelesaikan tugasan biasanya hanya mengambil masa yang kecil daripada masa yang diperlukan untuk mengakses sumber khusus yang lain. Jadi, masa lelaran berkurangan.

Generalist kami mungkin tidak mahir seperti pakar dalam fungsi kerja tertentu, tetapi kami tidak berusaha untuk kesempurnaan fungsi atau peningkatan kecil. Sebaliknya, kami berusaha untuk belajar dan menemui lebih banyak cabaran profesional dengan kesan beransur-ansur. Dengan konteks holistik untuk penyelesaian yang lengkap, dia melihat peluang yang pakar akan terlepas. Dia mempunyai lebih banyak idea dan lebih banyak kemungkinan. Dia juga gagal. Walau bagaimanapun, kos kegagalan adalah rendah dan faedah pembelajaran adalah tinggi. Asimetri ini menggalakkan lelaran pantas dan memberi ganjaran kepada pembelajaran.

Adalah penting untuk ambil perhatian bahawa jumlah autonomi dan kepelbagaian kemahiran yang diberikan kepada saintis timbunan penuh sebahagian besarnya bergantung pada keteguhan platform data untuk berfungsi. Platform data yang direka bentuk dengan baik mengabstrak saintis data daripada kerumitan kontena, pemprosesan teragih, failover automatik dan konsep pengkomputeran lanjutan yang lain. Selain pengabstrakan, platform data yang teguh boleh menyediakan ketersambungan yang lancar kepada infrastruktur percubaan, mengautomasikan pemantauan dan amaran, membolehkan penskalaan automatik dan visualisasi hasil algoritma dan penyahpepijatan. Komponen ini direka bentuk dan dibina oleh jurutera platform data, bermakna ia tidak diteruskan daripada saintis data kepada pasukan pembangunan platform data. Pakar Sains Datalah yang bertanggungjawab untuk semua kod yang digunakan untuk menjalankan platform.

Saya juga pernah berminat dengan pembahagian kerja berfungsi menggunakan kecekapan proses, tetapi melalui percubaan dan kesilapan (tiada cara yang lebih baik untuk belajar), saya mendapati bahawa peranan tipikal lebih memudahkan pembelajaran dan inovasi serta menyediakan metrik yang betul: menemui dan membina lebih banyak peluang perniagaan daripada pendekatan khusus. (Cara yang lebih berkesan untuk belajar tentang pendekatan penganjuran ini daripada percubaan dan kesilapan yang saya lalui ialah membaca buku Kolaborasi Pasukan Amy Edmondson: Bagaimana Organisasi Belajar, Berinovasi dan Bersaing dalam Ekonomi Pengetahuan).

Terdapat beberapa andaian penting yang mungkin menjadikan pendekatan ini untuk menganjurkan lebih atau kurang boleh dipercayai di sesetengah syarikat. Proses lelaran mengurangkan kos percubaan dan kesilapan. Jika kos ralat adalah tinggi, anda mungkin mahu mengurangkannya (tetapi ini tidak disyorkan untuk aplikasi perubatan atau pembuatan). Selain itu, jika anda berurusan dengan petabait atau exabait data, pengkhususan dalam kejuruteraan data mungkin diperlukan. Begitu juga, jika mengekalkan keupayaan perniagaan dalam talian dan ketersediaannya adalah lebih penting daripada menambah baiknya, kecemerlangan fungsi mungkin mengatasi pembelajaran. Akhirnya, model tindanan penuh bergantung pada pendapat orang yang mengetahui tentangnya. Mereka bukan unicorn; anda boleh mencarinya atau menyediakannya sendiri. Walau bagaimanapun, mereka mendapat permintaan yang tinggi dan menarik serta mengekalkannya memerlukan pampasan yang kompetitif, nilai korporat yang kukuh dan kerja yang mencabar. Pastikan budaya syarikat anda boleh menyokong perkara ini.

Walaupun dengan semua yang dikatakan, saya percaya bahawa model tindanan penuh menyediakan keadaan permulaan yang terbaik. Mulakan dengan mereka, dan kemudian secara sedar bergerak ke arah pembahagian kerja berfungsi hanya apabila benar-benar perlu.

Terdapat kelemahan lain pengkhususan berfungsi. Ini boleh menyebabkan kehilangan tanggungjawab dan pasif di pihak pekerja. Smith sendiri mengkritik pembahagian kerja, mencadangkan bahawa ia membawa kepada membosankan bakat, i.e. pekerja menjadi jahil dan menarik diri kerana peranan mereka terhad kepada beberapa tugasan yang berulang. Walaupun pengkhususan boleh memberikan kecekapan proses, ia kurang berkemungkinan memberi inspirasi kepada pekerja.

Sebaliknya, peranan serba boleh menyediakan semua perkara yang mendorong kepuasan kerja: autonomi, penguasaan dan tujuan. Autonomi ialah mereka tidak bergantung kepada apa-apa untuk mencapai kejayaan. Penguasaan terletak pada kelebihan daya saing yang kuat. Dan maksud tujuan terletak pada peluang untuk memberi kesan pada perniagaan yang mereka cipta. Jika kita boleh membuat orang teruja dengan kerja mereka dan memberi impak yang besar kepada syarikat, maka segala-galanya akan berlaku.

Sumber: www.habr.com

Tambah komen