Zašto timovima nauke o podacima trebaju generalisti, a ne specijalisti

Zašto timovima nauke o podacima trebaju generalisti, a ne specijalisti
HIROSHI WATANABE/GETTY IMAGES

U The Wealth of Nations, Adam Smith pokazuje kako podjela rada postaje glavni izvor povećane produktivnosti. Primjer je montažna linija u fabrici iglica: „Jedan radnik vuče žicu, drugi je ispravlja, treći je reže, četvrti oštri kraj, peti brusi drugi kraj kako bi stao u glavu.“ Zahvaljujući specijalizaciji usmjerenoj na specifične funkcije, svaki zaposlenik postaje visokokvalifikovani stručnjak za svoj uski zadatak, što dovodi do povećanja efikasnosti procesa. Proizvodnja po radniku se višestruko povećava, a fabrika postaje efikasnija u proizvodnji iglica.

Ova podjela rada prema funkcionalnosti je toliko ukorijenjena u našim umovima čak i danas da smo brzo organizirali svoje timove u skladu s tim. Data Science nije izuzetak. Kompleksne algoritamske poslovne sposobnosti zahtijevaju višestruke radne funkcije, tako da kompanije obično stvaraju timove stručnjaka: istraživača, inženjera podataka, inženjera mašinskog učenja, naučnika uzroka i posljedica itd. Rad stručnjaka koordinira produkt menadžer sa prijenosom funkcija na način koji podsjeća na tvornicu pinova: „jedna osoba prima podatke, druga ih modelira, treća izvršava, četvrta mjeri“ i tako dalje,

Nažalost, ne bismo trebali optimizirati naše timove za nauku podataka radi poboljšanja produktivnosti. Međutim, to radite kada shvatite šta proizvodite: igle ili nešto drugo, i jednostavno težite povećanju efikasnosti. Svrha montažnih linija je da se izvrši zadatak. Znamo tačno šta želimo - igle (kao u Smithovom primjeru), ali se može spomenuti bilo koji proizvod ili usluga u kojoj zahtjevi u potpunosti opisuju sve aspekte proizvoda i njegovo ponašanje. Uloga zaposlenih je da ispunjavaju ove zahteve što efikasnije.

Ali cilj nauke o podacima nije dovršavanje zadataka. Umjesto toga, cilj je istražiti i razviti snažne nove poslovne mogućnosti. Algoritamski proizvodi i usluge kao što su sistemi preporuka, interakcije s kupcima, klasifikacija stilskih preferencija, veličina, dizajn odjeće, optimizacija logistike, detekcija sezonskih trendova i još mnogo toga ne mogu se unaprijed razviti. Moraju se proučiti. Ne postoje nacrti za repliciranje, to su nove mogućnosti sa inherentnom neizvjesnošću. Koeficijenti, modeli, tipovi modela, hiperparametri, svi potrebni elementi moraju se naučiti kroz eksperimentisanje, pokušaje i greške i ponavljanje. Sa iglama, obuka i dizajn se rade prije proizvodnje. Sa naukom o podacima učite kao što radite, a ne prije.

U fabrici iglica, kada je obuka na prvom mestu, niti očekujemo niti želimo da radnici improvizuju na bilo kojoj osobini proizvoda osim da poboljšaju efikasnost proizvodnje. Specijaliziranje zadataka ima smisla jer dovodi do efikasnosti procesa i konzistentnosti proizvodnje (bez promjena u finalnom proizvodu).

Ali kada se proizvod još razvija, a cilj je obuka, specijalizacija ometa naše ciljeve u sljedećim slučajevima:

1. Povećava troškove koordinacije.

Odnosno, oni troškovi koji se akumuliraju tokom vremena provedenog u komunikaciji, diskusiji, pravdanju i određivanju prioriteta posla koji treba obaviti. Ovi troškovi rastu superlinearno s brojem ljudi koji su uključeni. (Kao što nas je naučio J. Richard Hackman, broj odnosa r raste slično funkciji broja pojmova n prema ovoj jednačini: r = (n^2-n)/2. I svaki odnos otkriva određenu količinu odnos troškova.) Kada su naučnici podataka organizovani po funkcijama, u svakoj fazi, sa svakom promjenom, svakom primopredajem itd., potrebno je mnogo stručnjaka, što povećava troškove koordinacije. Na primjer, statistički modeleri koji žele eksperimentirati s novim karakteristikama morat će koordinirati sa inženjerima podataka koji dodaju skupove podataka svaki put kada žele isprobati nešto novo. Isto tako, svaki novi model koji je obučen znači da će programeru modela trebati neko s kim će koordinirati da ga pusti u proizvodnju. Troškovi koordinacije djeluju kao cijena iteracije, čineći ih težim i skupljima i vjerovatnijim da će uzrokovati napuštanje studije. Ovo može ometati učenje.

2. Otežava vrijeme čekanja.

Čak i zastrašujući od troškova koordinacije je vrijeme izgubljeno između radnih smjena. Dok se troškovi koordinacije obično mjere u satima – vremenu koje je potrebno za održavanje sastanaka, diskusija, pregleda dizajna – vrijeme čekanja se obično mjeri u danima, sedmicama ili čak mjesecima! Rasporede funkcionalnih stručnjaka je teško izbalansirati jer svaki specijalista mora biti raspoređen na više projekata. Jednosatni sastanak na kojem se razgovara o promjenama može potrajati sedmicama da se izgladi tok posla. A nakon dogovora o izmjenama potrebno je planirati sam rad u kontekstu mnogih drugih projekata koji zauzimaju radno vrijeme stručnjaka. Rad koji uključuje ispravke koda ili istraživanje za koje je potrebno samo nekoliko sati ili dana može potrajati mnogo duže prije nego što resursi postanu dostupni. Do tada, ponavljanje i učenje su obustavljeni.

3. Sužava kontekst.

Podjela rada može vještački ograničiti učenje nagrađivanjem ljudi što su ostali u svojoj specijalnosti. Na primjer, istraživač koji mora ostati u okviru svoje funkcionalnosti će svoju energiju usmjeriti na eksperimentiranje s različitim tipovima algoritama: regresijom, neuronskim mrežama, nasumičnom šumom i tako dalje. Naravno, dobar izbor algoritama može dovesti do inkrementalnih poboljšanja, ali obično se mnogo više može dobiti od drugih aktivnosti, kao što je integracija novih izvora podataka. Isto tako, pomoći će da se razvije model koji koristi svaki dio objašnjavajuće moći svojstvene podacima. Međutim, njegova snaga može biti u promjeni ciljne funkcije ili ublažavanju određenih ograničenja. To je teško vidjeti ili učiniti kada je njen rad ograničen. Budući da je tehnički naučnik specijalizovan za optimizaciju algoritama, mnogo je manje verovatno da će uraditi bilo šta drugo, čak i ako to donosi značajne koristi.

Da imenujemo znakove koji se pojavljuju kada timovi za nauku podataka djeluju kao tvornice pinova (na primjer, u jednostavnim ažuriranjima statusa): „čeka se promjene cevovoda podataka“ i „čeka se resursi ML Eng“ su uobičajeni blokatori. Međutim, vjerujem da je opasniji utjecaj ono što ne primjećujete, jer ne možete požaliti ono što već ne znate. Besprijekorno izvršenje i samozadovoljstvo stečeno postizanjem efikasnosti procesa mogu prikriti istinu da organizacije nisu svjesne prednosti učenja koje propuštaju.

Rješenje ovog problema je, naravno, da se riješimo fabričke metode pina. Kako bi se podstaklo učenje i ponavljanje, uloge naučnika podataka trebale bi biti generičke, ali sa širokim odgovornostima neovisnim o tehničkoj funkciji, tj. organizirati naučnike podataka tako da budu optimizirani za učenje. To znači unajmljivanje „stručnjaka za kompletan stack“—općih stručnjaka koji mogu obavljati različite funkcije, od koncepta do modeliranja, implementacije do mjerenja. Važno je napomenuti da ne sugerišem da bi zapošljavanje kompletnih talenata trebalo da smanji broj zaposlenih. Umjesto toga, jednostavno ću pretpostaviti da kada su drugačije organizirani, njihovi poticaji su bolje usklađeni s prednostima učenja i učinka. Na primjer, recimo da imate tim od tri osobe s tri poslovne vještine. U fabrici iglica, svaki tehničar će posvetiti trećinu svog vremena svakom poslu, jer niko drugi ne može da radi njegov posao. U punom paketu, svaki generalni stručnjak je u potpunosti posvećen cjelokupnom poslovnom procesu, proširenju i obuci.

Sa manje ljudi koji podržavaju proizvodni ciklus, koordinacija je smanjena. Generalist se fluidno kreće između karakteristika, proširujući cevovod podataka da bi dodao više podataka, isprobavajući nove funkcije u modelima, uvodeći nove verzije u proizvodnju za kauzalna mjerenja i ponavljajući korake čim se nove ideje pojave. Naravno, karavan obavlja različite funkcije uzastopno, a ne paralelno. Na kraju krajeva, to je samo jedna osoba. Međutim, dovršavanje zadatka obično traje samo djelić vremena potrebnog za pristup drugom specijaliziranom resursu. Dakle, vrijeme iteracije se smanjuje.

Naš generalni stručnjak možda nije toliko vješt kao specijalista u određenoj funkciji posla, ali mi ne težimo funkcionalnom savršenstvu ili malim postepenim poboljšanjima. Umjesto toga, nastojimo učiti i otkrivati ​​sve više i više profesionalnih izazova s ​​postupnim utjecajem. Uz holistički kontekst za kompletno rješenje, on vidi mogućnosti koje bi stručnjak propustio. On ima više ideja i više mogućnosti. I on ne uspijeva. Međutim, cijena neuspjeha je niska, a koristi od učenja velike. Ova asimetrija promoviše brzo ponavljanje i nagrađuje učenje.

Važno je napomenuti da količina autonomije i raznolikosti vještina koja se daje naučnicima s punim stackom u velikoj mjeri ovisi o robusnosti platforme podataka na kojoj će raditi. Dobro dizajnirana platforma podataka apstrahuje naučnike podataka od složenosti kontejnerizacije, distribuirane obrade, automatskog prelaska na grešku i drugih naprednih računarskih koncepata. Osim apstrakcije, robusna platforma podataka može pružiti besprijekornu povezanost s eksperimentalnom infrastrukturom, automatizirati praćenje i upozorenje, omogućiti automatsko skaliranje i vizualizaciju algoritamskih rezultata i otklanjanje grešaka. Ove komponente su dizajnirane i napravljene od strane inženjera platforme podataka, što znači da se ne prenose sa naučnika podataka na tim za razvoj platforme podataka. Stručnjak za nauku o podacima je odgovoran za sav kod koji se koristi za pokretanje platforme.

I mene je nekada zanimala funkcionalna podjela rada koristeći efikasnost procesa, ali putem pokušaja i grešaka (ne postoji bolji način za učenje) otkrio sam da tipične uloge bolje olakšavaju učenje i inovacije i pružaju prave metrike: otkrivanje i izgradnja mnogo više poslovnih prilika od specijalizovanog pristupa. (Efikasniji način da naučim o ovom pristupu organizovanju od pokušaja i grešaka kroz koje sam prošao je da pročitam knjigu Ejmi Edmondson Timska saradnja: Kako organizacije uče, inoviraju i takmiče se u ekonomiji znanja).

Postoje neke važne pretpostavke koje mogu učiniti ovaj pristup organizovanju manje ili više pouzdanim u nekim kompanijama. Proces iteracije smanjuje troškove pokušaja i grešaka. Ako je cijena greške visoka, možda ćete ih htjeti smanjiti (ali to se ne preporučuje za medicinske primjene ili proizvodnju). Osim toga, ako imate posla s petabajtima ili eksabajtima podataka, može biti potrebna specijalizacija za inženjering podataka. Isto tako, ako je održavanje mogućnosti online poslovanja i njihove dostupnosti važnije od njihovog poboljšanja, funkcionalna izvrsnost može nadmašiti učenje. Konačno, full stack model se oslanja na mišljenja ljudi koji o njemu znaju. Oni nisu jednorozi; možete ih pronaći ili sami pripremiti. Međutim, za njima je velika potražnja i njihovo privlačenje i zadržavanje zahtijevat će konkurentnu naknadu, jake korporativne vrijednosti i izazovan posao. Uvjerite se da kultura vaše kompanije to može podržati.

Čak i uz sve rečeno, vjerujem da full stack model pruža najbolje početne uslove. Počnite s njima, a zatim svjesno idite prema funkcionalnoj podjeli rada samo kada je to apsolutno neophodno.

Postoje i drugi nedostaci funkcionalne specijalizacije. To može dovesti do gubitka odgovornosti i pasivnosti radnika. Sam Smith kritikuje podelu rada, sugerišući da ona vodi otupljivanju talenta, tj. radnici postaju neupućeni i povučeni jer su njihove uloge ograničene na nekoliko zadataka koji se ponavljaju. Iako specijalizacija može obezbijediti efikasnost procesa, manje je vjerovatno da će inspirisati radnike.

Zauzvrat, raznovrsne uloge pružaju sve stvari koje potiču zadovoljstvo poslom: autonomiju, majstorstvo i svrhu. Autonomija je u tome što ne zavise ni od čega da bi postigli uspjeh. Majstorstvo leži u jakim konkurentskim prednostima. A smisao svrhe leži u prilici da imaju uticaja na posao koji kreiraju. Ako uspijemo da ljude oduševimo njihovim poslom i imamo veliki utjecaj na kompaniju, onda će sve ostalo doći na svoje mjesto.

izvor: www.habr.com

Dodajte komentar