Zakaj ekipe podatkovne znanosti potrebujejo generaliste, ne specialistov

Zakaj ekipe podatkovne znanosti potrebujejo generaliste, ne specialistov
HIROSHI WATANABE/GETTY IMAGES

V Bogastvu narodov Adam Smith pokaže, kako postane delitev dela glavni vir povečane produktivnosti. Primer je tekoči trak v tovarni žebljičkov: »En delavec vleče žico, drugi jo ravna, tretji reže, četrti naostri konec, peti drugi konec brusi, da se prilega glavi.« Zahvaljujoč specializaciji, osredotočeni na specifične funkcije, postane vsak zaposleni visoko usposobljen specialist za svojo ožjo nalogo, kar vodi do povečane učinkovitosti procesa. Proizvodnja na delavca se večkrat poveča, tovarna pa postane učinkovitejša pri izdelavi žebljičkov.

Ta delitev dela po funkcionalnosti je še danes tako zasidrana v naših glavah, da smo hitro temu primerno organizirali svoje ekipe. Podatkovna znanost ni izjema. Kompleksne algoritemske poslovne zmogljivosti zahtevajo več delovnih funkcij, zato podjetja običajno ustvarijo skupine strokovnjakov: raziskovalcev, podatkovnih inženirjev, inženirjev strojnega učenja, znanstvenikov vzrokov in posledic itd. Delo strokovnjakov usklajuje produktni vodja s prenosom funkcij na način, ki spominja na tovarno žebljičkov: »eden prejme podatke, drugi jih modelira, tretji izvaja, četrti meri« ipd.

Žal, naših ekip za podatkovno znanost ne bi smeli optimizirati za izboljšanje produktivnosti. Vendar to storite, ko razumete, kaj proizvajate: žebljičke ali kaj drugega, in preprosto težite k povečanju učinkovitosti. Namen tekočih trakov je dokončanje naloge. Natančno vemo, kaj hočemo – žebljičke (kot v Smithovem primeru), vendar lahko omenimo vsak izdelek ali storitev, v kateri zahteve v celoti opisujejo vse vidike izdelka in njegovega obnašanja. Vloga zaposlenih je, da te zahteve čim bolj učinkovito izpolnijo.

Toda cilj podatkovne znanosti ni dokončanje nalog. Namesto tega je cilj raziskati in razviti močne nove poslovne priložnosti. Algoritemskih izdelkov in storitev, kot so sistemi priporočil, interakcije s strankami, klasifikacija stilskih preferenc, velikost, oblikovanje oblačil, optimizacija logistike, zaznavanje sezonskih trendov in še veliko več, ni mogoče razviti vnaprej. Treba jih je preučiti. Ni načrtov za posnemanje, to so nove možnosti z inherentno negotovostjo. Koeficientov, modelov, tipov modelov, hiperparametrov, vseh potrebnih elementov se je treba naučiti z eksperimentiranjem, poskusi in napakami ter ponavljanjem. Z zatiči se usposabljanje in oblikovanje izvajata pred proizvodnjo. S Data Science se učite sproti, ne prej.

V tovarni žebljičkov, ko je usposabljanje na prvem mestu, od delavcev niti ne pričakujemo niti ne želimo, da improvizirajo katero koli lastnost izdelka, razen da izboljšajo učinkovitost proizvodnje. Specializacija nalog je smiselna, ker vodi do učinkovitosti procesa in doslednosti proizvodnje (brez sprememb končnega izdelka).

Ko pa je izdelek še v razvoju in je cilj usposabljanje, specializacija posega v naše cilje v naslednjih primerih:

1. Poveča stroške usklajevanja.

To so tisti stroški, ki se naberejo med časom, porabljenim za komuniciranje, razpravljanje, utemeljitev in določanje prioritet dela, ki ga je treba opraviti. Ti stroški se spreminjajo superlinearno glede na število vključenih ljudi. (Kot nas je naučil J. Richard Hackman, število razmerij r raste podobno kot funkcija števila členov n v skladu s to enačbo: r = (n^2-n)/2. In vsako razmerje razkrije določeno količino stroškovno razmerje.) Ko so podatkovni znanstveniki organizirani po funkcijah, je na vsaki stopnji, pri vsaki spremembi, vsaki predaji itd. potrebnih veliko strokovnjakov, kar poveča stroške usklajevanja. Na primer, oblikovalci statističnih modelov, ki želijo eksperimentirati z novimi funkcijami, se bodo morali uskladiti s podatkovnimi inženirji, ki dodajajo nabore podatkov vsakič, ko želijo poskusiti nekaj novega. Podobno vsak nov usposobljeni model pomeni, da bo razvijalec modela potreboval nekoga, s katerim se bo lahko usklajeval, da ga bo dal v proizvodnjo. Stroški usklajevanja delujejo kot cena za ponovitev, zaradi česar so težji in dražji ter bolj verjetno povzročijo opustitev študije. To lahko moti učenje.

2. Otežuje čakalne dobe.

Še bolj strašljiv kot stroški usklajevanja je izguba časa med delovnimi izmenami. Medtem ko se stroški usklajevanja običajno merijo v urah – čas, ki je potreben za izvedbo sestankov, razprav, pregledov oblikovanja – se čakalni čas običajno meri v dnevih, tednih ali celo mesecih! Urnike funkcionalnih strokovnjakov je težko uravnotežiti, ker mora biti vsak specialist razporejen po več projektih. Enourni sestanek za razpravo o spremembah lahko traja tedne, da se potek dela zgladi. In po dogovoru o spremembah je treba načrtovati samo delo v okviru številnih drugih projektov, ki zasedajo delovni čas strokovnjakov. Delo, ki vključuje popravke kode ali raziskave, ki trajajo le nekaj ur ali dni, lahko traja veliko dlje, preden bodo viri na voljo. Do takrat sta ponavljanje in učenje začasno ustavljena.

3. Zoži kontekst.

Delitev dela lahko umetno omeji učenje z nagrajevanjem ljudi, ker ostajajo v svoji specialnosti. Na primer, raziskovalec, ki mora ostati znotraj obsega svoje funkcionalnosti, bo svojo energijo usmeril v eksperimentiranje z različnimi vrstami algoritmov: regresijo, nevronskimi mrežami, naključnim gozdom itd. Seveda lahko dobre izbire algoritmov vodijo do postopnih izboljšav, vendar je običajno veliko več mogoče pridobiti z drugimi dejavnostmi, kot je integracija novih podatkovnih virov. Prav tako bo pomagal razviti model, ki izkorišča vsak delček razlagalne moči, ki je neločljivo povezana s podatki. Vendar pa je njegova moč lahko v spreminjanju ciljne funkcije ali sprostitvi določenih omejitev. To je težko videti ali narediti, ko je njeno delo omejeno. Ker je tehnični znanstvenik specializiran za optimizacijo algoritmov, je veliko manj verjetno, da bo počel karkoli drugega, tudi če bo to prineslo pomembne koristi.

Če poimenujemo znake, ki se pojavijo, ko ekipe za podatkovno znanost delujejo kot tovarne zatičev (na primer pri preprostih posodobitvah statusa): »čakanje na spremembe podatkovnega cevovoda« in »čakanje na vire ML Eng« sta pogosta blokatorja. Verjamem pa, da je bolj nevaren vpliv tisto, česar ne opaziš, saj ne moreš obžalovati tistega, česar še ne veš. Brezhibna izvedba in samozadovoljstvo, pridobljeno z doseganjem učinkovitosti procesov, lahko prikrijeta resnico, da se organizacije ne zavedajo učnih koristi, ki jih zamujajo.

Rešitev tega problema je seveda, da se znebite metode tovarniških zatičev. Za spodbujanje učenja in ponavljanja bi morale biti vloge podatkovnega znanstvenika splošne, vendar s širokimi odgovornostmi, neodvisnimi od tehnične funkcije, tj. organizirati podatkovne znanstvenike tako, da so optimizirani za učenje. To pomeni najemanje »strokovnjakov za celoten sklop« – splošnih strokovnjakov, ki lahko opravljajo različne funkcije, od koncepta do modeliranja, izvedbe do meritev. Pomembno je omeniti, da ne predlagam, da bi najemanje talentiranih delavcev zmanjšalo število zaposlenih. Namesto tega bom preprosto domneval, da so njihove spodbude bolje usklajene s koristmi učenja in uspešnosti, če so organizirani drugače. Na primer, recimo, da imate ekipo treh ljudi s tremi poslovnimi znanji. V tovarni žebljičkov bo vsak tehnik tretjino svojega časa posvetil vsaki delovni nalogi, saj nihče drug ne more opraviti njegovega dela. V celotnem nizu je vsak generalist popolnoma predan celotnemu poslovnemu procesu, povečanju in usposabljanju.

Z manj ljudi, ki podpirajo proizvodni cikel, je koordinacija zmanjšana. Generalist se tekoče premika med funkcijami, širi podatkovni cevovod za dodajanje več podatkov, preizkuša nove funkcije v modelih, uvaja nove različice v proizvodnjo za vzročne meritve in ponavlja korake tako hitro, kot se pojavijo nove ideje. Seveda karavan opravlja različne funkcije zaporedno in ne vzporedno. Konec koncev je samo ena oseba. Vendar dokončanje naloge običajno traja le delček časa, potrebnega za dostop do drugega specializiranega vira. Torej se čas ponovitve zmanjša.

Naš generalist morda ni tako usposobljen kot strokovnjak za določeno delovno funkcijo, vendar ne težimo k funkcionalni popolnosti ali majhnim postopnim izboljšavam. Namesto tega se trudimo učiti in odkrivati ​​vedno več poklicnih izzivov s postopnim učinkom. S celostnim kontekstom za celovito rešitev vidi priložnosti, ki bi jih specialist zamudil. Ima več idej in več možnosti. Tudi on ne uspe. Vendar je cena neuspeha nizka, koristi učenja pa velike. Ta asimetrija spodbuja hitro ponavljanje in nagrajuje učenje.

Pomembno je omeniti, da je količina avtonomije in raznolikosti spretnosti, ki je zagotovljena znanstvenikom s polnim naborom, v veliki meri odvisna od robustnosti podatkovne platforme, na kateri delajo. Dobro zasnovana podatkovna platforma podatkovne znanstvenike odvzame od zapletenosti kontejnerizacije, porazdeljene obdelave, samodejnega preklopa in drugih naprednih računalniških konceptov. Poleg abstrakcije lahko robustna podatkovna platforma zagotovi brezhibno povezljivost z eksperimentalno infrastrukturo, avtomatizira spremljanje in opozarjanje, omogoči samodejno skaliranje in vizualizacijo algoritemskih rezultatov ter odpravljanje napak. Te komponente so zasnovali in zgradili inženirji podatkovne platforme, kar pomeni, da jih podatkovni znanstvenik ne posreduje skupini za razvoj podatkovne platforme. Za vso kodo, ki se uporablja za zagon platforme, je odgovoren strokovnjak za podatkovno znanost.

Tudi mene je nekoč zanimala funkcionalna delitev dela z uporabo učinkovitosti procesa, toda s poskusi in napakami (ni boljšega načina za učenje) sem ugotovil, da tipične vloge bolje olajšajo učenje in inovacije ter zagotavljajo prave meritve: odkrivanje in ustvarjanje veliko več poslovnih priložnosti kot specializiran pristop. (Učinkovitejši način za učenje o tem pristopu k organiziranju kot poskusi in napake, skozi katere sem šel, je branje knjige Amy Edmondson Team Collaboration: How Organisations Learn, Innovate, and Compete in the Knowledge Economy).

Obstaja nekaj pomembnih predpostavk, zaradi katerih je lahko ta pristop k organiziranju v nekaterih podjetjih bolj ali manj zanesljiv. Postopek ponavljanja zmanjša stroške poskusov in napak. Če so stroški napak visoki, jih boste morda želeli zmanjšati (vendar to ni priporočljivo za medicinske aplikacije ali proizvodnjo). Poleg tega, če imate opravka s petabajti ali eksabajti podatkov, bo morda potrebna specializacija podatkovnega inženiringa. Podobno, če je vzdrževanje spletnih poslovnih zmogljivosti in njihove razpoložljivosti pomembnejše od njihovega izboljšanja, lahko funkcionalna odličnost prevlada nad učenjem. Končno se model celotnega sklada opira na mnenja ljudi, ki ga poznajo. Niso samorogi; lahko jih poiščete ali pripravite sami. Vendar pa je po njih veliko povpraševanja in njihovo privabljanje in obdržanje bo zahtevalo konkurenčno nadomestilo, močne korporativne vrednote in zahtevno delo. Prepričajte se, da kultura vašega podjetja to podpira.

Kljub vsemu povedanemu menim, da model polnega sklada zagotavlja najboljše začetne pogoje. Začnite z njimi, nato pa se zavestno pomaknite k funkcionalni delitvi dela le, ko je to nujno potrebno.

Funkcionalna specializacija ima še druge slabosti. To lahko povzroči izgubo odgovornosti in pasivnost delavcev. Sam Smith kritizira delitev dela in meni, da vodi v otopelost talenta, tj. delavci postanejo nevedni in zaprti, saj so njihove vloge omejene na nekaj ponavljajočih se nalog. Čeprav lahko specializacija zagotovi učinkovitost procesa, je manj verjetno, da bo navdihnila delavce.

Po drugi strani pa vsestranske vloge zagotavljajo vse stvari, ki spodbujajo zadovoljstvo pri delu: avtonomijo, mojstrstvo in namen. Avtonomija je, da niso odvisni od ničesar, da bi dosegli uspeh. Mojstrstvo je v močnih konkurenčnih prednostih. Občutek namena pa je v priložnosti, da vplivajo na podjetje, ki ga ustvarjajo. Če lahko ljudi navdušimo za njihovo delo in imamo velik vpliv na podjetje, potem bo vse drugo prišlo na svoje mesto.

Vir: www.habr.com

Dodaj komentar