Zašto timovi za znanost o podacima trebaju generaliste, a ne stručnjake

Zašto timovi za znanost o podacima trebaju generaliste, a ne stručnjake
HIROSHI WATANABE/GETTY IMAGES

U djelu Bogatstvo naroda Adam Smith pokazuje kako podjela rada postaje glavni izvor povećane produktivnosti. Primjer je tekuća traka tvornice pribadača: “Jedan radnik vuče žicu, drugi je ravna, treći je reže, četvrti oštri kraj, peti brusi drugi kraj da pristane na glavu.” Zahvaljujući specijalizaciji usmjerenoj na određene funkcije, svaki zaposlenik postaje visokokvalificirani stručnjak za svoj uži zadatak, što dovodi do povećanja učinkovitosti procesa. Učinak po radniku višestruko se povećava, a tvornica postaje učinkovitija u proizvodnji pribadača.

Ova podjela rada po funkcionalnosti toliko je ukorijenjena u našim glavama čak i danas da smo brzo organizirali svoje timove u skladu s tim. Data Science nije iznimka. Složene algoritamske poslovne mogućnosti zahtijevaju višestruke radne funkcije, tako da tvrtke obično stvaraju timove stručnjaka: istraživača, podatkovnih inženjera, inženjera strojnog učenja, znanstvenika uzroka i posljedica itd. Rad stručnjaka koordinira voditelj proizvoda uz prijenos funkcija na način koji podsjeća na tvornicu iglica: “jedna osoba prima podatke, druga ih modelira, treća ih izvršava, četvrta mjeri” i tako dalje,

Nažalost, ne bismo trebali optimizirati naše timove za znanost podataka kako bismo poboljšali produktivnost. Međutim, to činite kada razumijete što proizvodite: pribadače ili nešto treće, i jednostavno nastojite povećati učinkovitost. Svrha montažnih linija je dovršiti zadatak. Znamo točno što želimo - pribadače (kao u Smithovom primjeru), ali može se spomenuti svaki proizvod ili usluga u kojoj zahtjevi u potpunosti opisuju sve aspekte proizvoda i njegovog ponašanja. Uloga zaposlenika je što učinkovitije ispuniti te zahtjeve.

Ali cilj Data Science nije dovršavanje zadataka. Umjesto toga, cilj je istražiti i razviti snažne nove poslovne prilike. Algoritamski proizvodi i usluge kao što su sustavi preporuka, interakcije s kupcima, klasifikacija preferencija stila, veličina, dizajn odjeće, optimizacija logistike, otkrivanje sezonskih trendova i mnogo više ne mogu se razviti unaprijed. Moraju se proučavati. Ne postoje nacrti za repliciranje, to su nove mogućnosti s inherentnom neizvjesnošću. Koeficijenti, modeli, tipovi modela, hiperparametri, svi potrebni elementi moraju se naučiti eksperimentiranjem, pokušajima i pogreškama te ponavljanjem. S pribadačama, obuka i dizajn se obavljaju prije proizvodnje. Uz Data Science učite dok učite, ne prije.

U tvornici pribadača, kada je obuka na prvom mjestu, niti očekujemo niti želimo da radnici improviziraju na bilo kojoj značajki proizvoda osim da poboljšaju učinkovitost proizvodnje. Specijalizacija zadataka ima smisla jer dovodi do učinkovitosti procesa i dosljednosti proizvodnje (bez promjena na konačnom proizvodu).

Ali kada je proizvod još u razvoju i cilj je obuka, specijalizacija ometa naše ciljeve u sljedećim slučajevima:

1. Povećava troškove koordinacije.

Odnosno, oni troškovi koji se akumuliraju tijekom vremena provedenog u komunikaciji, raspravi, opravdavanju i određivanju prioriteta posla koji treba obaviti. Ovi troškovi rastu super-linearno s brojem uključenih ljudi. (Kao što nas je naučio J. Richard Hackman, broj odnosa r raste slično funkciji broja članova n prema ovoj jednadžbi: r = (n^2-n)/2. A svaki odnos otkriva neku količinu odnos troškova.) Kada su podatkovni znanstvenici organizirani po funkciji, u svakoj fazi, sa svakom promjenom, svakom primopredajom itd., potrebno je mnogo stručnjaka, što povećava troškove koordinacije. Na primjer, statistički modelari koji žele eksperimentirati s novim značajkama morat će se koordinirati s podatkovnim inženjerima koji dodaju skupove podataka svaki put kada žele isprobati nešto novo. Isto tako, svaki novi obučeni model znači da će razvijač modela trebati nekoga s kim će koordinirati kako bi ga stavio u proizvodnju. Troškovi koordinacije djeluju kao cijena za ponavljanje, čineći ih težima i skupljima te je veća vjerojatnost da će uzrokovati napuštanje studije. To može ometati učenje.

2. Otežava vrijeme čekanja.

Još više od troškova koordinacije zastrašujuće je vrijeme izgubljeno između radnih smjena. Dok se troškovi koordinacije obično mjere u satima - vrijeme potrebno za održavanje sastanaka, rasprava, pregleda dizajna - vrijeme čekanja obično se mjeri u danima, tjednima ili čak mjesecima! Rasporede funkcionalnih stručnjaka teško je uskladiti jer svaki stručnjak mora biti raspoređen na više projekata. Jednosatni sastanak na kojem se raspravlja o promjenama može potrajati tjednima da bi se izgladio tijek rada. A nakon dogovora o promjenama potrebno je isplanirati i sam rad u kontekstu mnogih drugih projekata koji zauzimaju radno vrijeme specijalista. Posao koji uključuje popravke koda ili istraživanje za koje je potrebno samo nekoliko sati ili dana može potrajati mnogo dulje prije nego što resursi postanu dostupni. Do tada su ponavljanje i učenje obustavljeni.

3. Sužava kontekst.

Podjela rada može umjetno ograničiti učenje nagrađujući ljude za ostanak u svojoj specijalnosti. Na primjer, znanstvenik istraživač koji mora ostati unutar opsega svoje funkcionalnosti usmjerit će svoju energiju na eksperimentiranje s različitim vrstama algoritama: regresijom, neuronskim mrežama, nasumičnim šumama i tako dalje. Naravno, dobri izbori algoritama mogu dovesti do inkrementalnih poboljšanja, ali obično se puno više može dobiti od drugih aktivnosti, kao što je integracija novih izvora podataka. Isto tako, pomoći će u razvoju modela koji iskorištava svaki djelić moći objašnjenja svojstven podacima. Međutim, njegova snaga može ležati u promjeni funkcije cilja ili ublažavanju određenih ograničenja. To je teško vidjeti ili učiniti kada je njezin rad ograničen. Budući da se tehnički znanstvenik specijalizirao za optimiziranje algoritama, mnogo je manje vjerojatno da će raditi bilo što drugo, čak i ako to donosi značajne koristi.

Da imenujemo znakove koji se pojavljuju kada timovi za znanost podataka djeluju kao tvornice pinova (na primjer, u jednostavnim ažuriranjima statusa): "čekaju se promjene podatkovnog cjevovoda" i "čekaju resurse ML Eng" uobičajeni su blokeri. Ipak, vjerujem da je opasniji utjecaj ono što ne primjećujete, jer ne možete žaliti za onim što već ne znate. Besprijekorna izvedba i samozadovoljstvo dobiveno postizanjem učinkovitosti procesa mogu prikriti istinu da organizacije nisu svjesne prednosti učenja koje propuštaju.

Rješenje ovog problema je, naravno, riješiti se metode tvorničke igle. Kako bi se potaknulo učenje i ponavljanje, uloge podatkovnog znanstvenika trebale bi biti generičke, ali sa širokim odgovornostima neovisnim o tehničkoj funkciji, tj. organizirati podatkovne znanstvenike tako da budu optimizirani za učenje. To znači angažiranje "full stack stručnjaka"—općih stručnjaka koji mogu obavljati razne funkcije, od koncepta do modeliranja, implementacije do mjerenja. Važno je napomenuti da ne sugeriram da bi zapošljavanje talentiranih ljudi trebalo smanjiti broj zaposlenika. Umjesto toga, jednostavno ću pretpostaviti da kada su drugačije organizirani, njihovi poticaji su bolje usklađeni s prednostima učenja i učinka. Na primjer, recimo da imate tim od troje ljudi s tri poslovne vještine. U tvornici igala svaki će tehničar posvetiti trećinu svog vremena svakom radnom zadatku, budući da nitko drugi ne može obaviti njegov posao. U punom nizu, svaki generalist u potpunosti je posvećen cjelokupnom poslovnom procesu, nadogradnji i obuci.

S manje ljudi koji podržavaju proizvodni ciklus, koordinacija je smanjena. Generalist se glatko kreće između značajki, proširujući cjevovod podataka kako bi dodao više podataka, isprobavajući nove značajke u modelima, postavljajući nove verzije u proizvodnju za uzročna mjerenja i ponavljajući korake čim se pojave nove ideje. Naravno, karavan obavlja različite funkcije sekvencijalno, a ne paralelno. Uostalom, to je samo jedna osoba. Međutim, dovršavanje zadatka obično traje samo djelić vremena potrebnog za pristup drugom specijaliziranom resursu. Dakle, vrijeme ponavljanja se smanjuje.

Naš generalist možda nije tako vješt kao stručnjak za određenu radnu funkciju, ali ne težimo funkcionalnom savršenstvu ili malim inkrementalnim poboljšanjima. Umjesto toga, nastojimo učiti i otkrivati ​​sve više i više profesionalnih izazova s ​​postupnim učinkom. Uz holistički kontekst za cjelovito rješenje, on vidi prilike koje bi stručnjak propustio. Ima više ideja i više mogućnosti. I on ne uspijeva. Međutim, cijena neuspjeha je niska, a dobrobiti učenja velike. Ova asimetrija potiče brzo ponavljanje i nagrađuje učenje.

Važno je napomenuti da količina autonomije i raznolikosti vještina koja se nudi znanstvenicima s punim kapacitetom uvelike ovisi o robusnosti podatkovne platforme na kojoj rade. Dobro osmišljena podatkovna platforma apstrahira podatkovne znanstvenike od složenosti kontejnerizacije, distribuirane obrade, automatskog prelaska u slučaju kvara i drugih naprednih računalnih koncepata. Osim apstrakcije, robusna podatkovna platforma može pružiti besprijekornu povezanost s eksperimentalnom infrastrukturom, automatizirati nadzor i upozoravanje, omogućiti automatsko skaliranje i vizualizaciju algoritamskih rezultata i otklanjanje pogrešaka. Ove komponente dizajnirali su i izgradili inženjeri podatkovne platforme, što znači da se ne prosljeđuju od podatkovnog znanstvenika timu za razvoj podatkovne platforme. Stručnjak za znanost o podacima odgovoran je za sav kod koji se koristi za pokretanje platforme.

I mene je nekoć zanimala funkcionalna podjela rada pomoću učinkovitosti procesa, ali putem pokušaja i pogrešaka (ne postoji bolji način za učenje), otkrio sam da tipične uloge bolje olakšavaju učenje i inovacije te daju pravu metriku: otkrivanje i stvaranje mnogo više poslovnih prilika od specijaliziranog pristupa. (Učinkovitiji način da naučim o ovom pristupu organiziranju od pokušaja i pogrešaka kroz koji sam prošao je čitanje knjige Amy Edmondson Timska suradnja: Kako organizacije uče, inoviraju i natječu se u gospodarstvu znanja).

Postoje neke važne pretpostavke koje ovaj pristup organiziranju mogu učiniti više ili manje pouzdanim u nekim tvrtkama. Proces ponavljanja smanjuje troškove pokušaja i pogrešaka. Ako je cijena pogreške visoka, možda biste je trebali smanjiti (ali to se ne preporučuje za medicinske primjene ili proizvodnju). Osim toga, ako imate posla s petabajtima ili eksabajtima podataka, možda će biti potrebna specijalizacija u podatkovnom inženjerstvu. Isto tako, ako je održavanje mrežnih poslovnih sposobnosti i njihove dostupnosti važnije od njihovog poboljšanja, funkcionalna izvrsnost može nadvladati učenje. Konačno, full stack model oslanja se na mišljenja ljudi koji ga poznaju. Oni nisu jednorozi; možete ih pronaći ili sami pripremiti. Međutim, velika je potražnja za njima, a njihovo privlačenje i zadržavanje zahtijevat će konkurentnu naknadu, jake korporativne vrijednosti i izazovan posao. Provjerite može li kultura vaše tvrtke to podržati.

Čak i uz sve navedeno, vjerujem da full stack model pruža najbolje startne uvjete. Počnite s njima, a zatim svjesno krenite prema funkcionalnoj podjeli rada samo kada je prijeko potrebno.

Postoje i drugi nedostaci funkcionalne specijalizacije. To može dovesti do gubitka odgovornosti i pasivnosti radnika. Sam Smith kritizira podjelu rada, sugerirajući da ona dovodi do otupljivanja talenta, tj. radnici postaju neupućeni i povučeni jer su njihove uloge ograničene na nekoliko zadataka koji se ponavljaju. Iako specijalizacija može osigurati učinkovitost procesa, manje je vjerojatno da će nadahnuti radnike.

S druge strane, raznovrsne uloge pružaju sve ono što pokreće zadovoljstvo poslom: autonomiju, majstorstvo i svrhu. Autonomija je da ne ovise ni o čemu kako bi postigli uspjeh. Majstorstvo leži u jakim konkurentskim prednostima. A smisao svrhe leži u mogućnosti utjecaja na posao koji stvaraju. Ako uspijemo zainteresirati ljude za njihov rad i imati veliki utjecaj na tvrtku, onda će sve ostalo doći na svoje mjesto.

Izvor: www.habr.com

Dodajte komentar