Prečo tímy Data Science potrebujú všeobecných odborníkov, nie špecialistov

Prečo tímy Data Science potrebujú všeobecných odborníkov, nie špecialistov
HIROSHI WATANABE/GETTY IMAGES

Adam Smith v knihe Bohatstvo národov ukazuje, ako sa deľba práce stáva hlavným zdrojom zvýšenej produktivity. Príkladom je montážna linka továrne na výrobu špendlíkov: „Jeden robotník ťahá drôt, druhý ho narovnáva, tretí ho strihá, štvrtý brúsi koniec, piaty brúsi druhý koniec, aby sa zmestil na hlavu.“ Vďaka špecializácii zameranej na špecifické funkcie sa každý zamestnanec stáva vysokokvalifikovaným špecialistom vo svojej úzkej úlohe, čo vedie k zvýšeniu efektivity procesov. Výkon na pracovníka sa mnohonásobne zvyšuje a továreň sa stáva efektívnejšou pri výrobe kolíkov.

Toto rozdelenie práce podľa funkčnosti je v našich mysliach tak zakorenené aj dnes, že sme podľa toho rýchlo zorganizovali naše tímy. Data Science nie je výnimkou. Komplexné algoritmické obchodné schopnosti vyžadujú viacero pracovných funkcií, takže spoločnosti zvyčajne vytvárajú tímy špecialistov: výskumníkov, dátových inžinierov, inžinierov strojového učenia, vedcov príčin a následkov atď. Prácu špecialistov koordinuje produktový manažér s prenosom funkcií spôsobom, ktorý pripomína továreň na piny: „jedna osoba prijíma dáta, druhá ich modeluje, tretia ich vykonáva, štvrtá meria“ atď.

Bohužiaľ, nemali by sme optimalizovať naše tímy Data Science, aby sme zvýšili produktivitu. Robíte to však vtedy, keď rozumiete tomu, čo vyrábate: špendlíky alebo niečo iné, a jednoducho sa snažíte zvýšiť efektivitu. Účelom montážnych liniek je dokončiť úlohu. Vieme presne, čo chceme – špendlíky (ako v Smithovom príklade), ale možno spomenúť akýkoľvek produkt alebo službu, v ktorej požiadavky plne popisujú všetky aspekty produktu a jeho správanie. Úlohou zamestnancov je splniť tieto požiadavky čo najefektívnejšie.

Ale cieľom Data Science nie je dokončiť úlohy. Cieľom je skôr skúmať a rozvíjať silné nové obchodné príležitosti. Algoritmické produkty a služby, ako sú systémy odporúčaní, interakcie so zákazníkmi, klasifikácia preferencií štýlu, dimenzovanie veľkosti, odevný dizajn, optimalizácia logistiky, detekcia sezónnych trendov a oveľa viac, nie je možné vyvinúť vopred. Treba ich študovať. Neexistujú žiadne plány na replikáciu, sú to nové možnosti s inherentnou neistotou. Koeficienty, modely, typy modelov, hyperparametre, všetky potrebné prvky sa musia naučiť experimentovaním, pokusom a omylom a opakovaním. S kolíkmi sa školenie a dizajn robia pred výrobou. S Data Science sa učíte tak, ako sa učíte, nie predtým.

V továrni na výrobu špendlíkov, keď je školenie na prvom mieste, neočakávame ani nechceme, aby pracovníci improvizovali pri akejkoľvek inej funkcii produktu, ako je zlepšenie efektívnosti výroby. Špecializácia úloh má zmysel, pretože vedie k efektivite procesov a konzistentnosti výroby (bez zmien finálneho produktu).

Ale keď sa produkt stále vyvíja a cieľom je školenie, špecializácia zasahuje do našich cieľov v nasledujúcich prípadoch:

1. Zvyšuje náklady na koordináciu.

Teda tie náklady, ktoré sa nahromadia počas času stráveného komunikáciou, diskusiou, zdôvodňovaním a uprednostňovaním práce, ktorú treba urobiť. Tieto náklady sa škálujú superlineárne s počtom zapojených ľudí. (Ako nás naučil J. Richard Hackman, počet vzťahov r rastie podobne ako funkcia počtu členov n podľa tejto rovnice: r = (n^2-n)/2. A každý vzťah odhaľuje určité množstvo nákladový vzťah.) Keď sú dátoví vedci organizovaní podľa funkcie, v každej fáze, pri každej zmene, každom odovzdaní atď., je potrebných veľa špecialistov, čo zvyšuje náklady na koordináciu. Napríklad štatistickí modelári, ktorí chcú experimentovať s novými funkciami, sa budú musieť skoordinovať s dátovými inžiniermi, ktorí pridávajú do dátových súborov zakaždým, keď chcú vyskúšať niečo nové. Podobne každý nový model vyškolený znamená, že vývojár modelu bude potrebovať niekoho, s kým bude koordinovať jeho uvedenie do výroby. Náklady na koordináciu fungujú ako cena za iteráciu, čím sa stávajú zložitejšími a nákladnejšími a s väčšou pravdepodobnosťou spôsobia zastavenie štúdie. To môže narúšať učenie.

2. Sťažuje čakacie doby.

Ešte skľučujúcejšie ako náklady na koordináciu sú straty času medzi pracovnými zmenami. Zatiaľ čo náklady na koordináciu sa zvyčajne merajú v hodinách – čas potrebný na vedenie stretnutí, diskusií, preskúmanie dizajnu – čas čakania sa zvyčajne meria v dňoch, týždňoch alebo dokonca mesiacoch! Harmonogramy funkčných špecialistov je ťažké vyvážiť, pretože každý špecialista musí byť rozdelený na viacero projektov. Hodinová schôdza na prediskutovanie zmien môže trvať týždne, kým sa vyhladí pracovný tok. A po odsúhlasení zmien je potrebné plánovať samotnú prácu v kontexte mnohých iných projektov, ktoré zaberajú pracovný čas špecialistov. Práca zahŕňajúca opravy kódu alebo výskum, ktorých dokončenie trvá len niekoľko hodín alebo dní, môže trvať oveľa dlhšie, kým budú zdroje dostupné. Dovtedy je iterácia a učenie pozastavené.

3. Zužuje kontext.

Deľba práce môže umelo obmedziť učenie tým, že odmeňuje ľudí za to, že zostanú vo svojej špecializácii. Napríklad vedecký pracovník, ktorý musí zostať v rámci svojich funkcií, zameria svoju energiu na experimentovanie s rôznymi typmi algoritmov: regresia, neurónové siete, náhodný les atď. Samozrejme, dobrý výber algoritmov môže viesť k postupným zlepšeniam, ale zvyčajne sa dá získať oveľa viac z iných činností, ako je napríklad integrácia nových zdrojov údajov. Podobne to pomôže vyvinúť model, ktorý využíva každý kúsok vysvetľovacej schopnosti, ktorá je obsiahnutá v údajoch. Jeho sila však môže spočívať v zmene objektívnej funkcie alebo uvoľnení určitých obmedzení. To je ťažké vidieť alebo urobiť, keď je jej práca obmedzená. Keďže technický vedec sa špecializuje na optimalizáciu algoritmov, je oveľa menej pravdepodobné, že urobí čokoľvek iné, aj keď to prinesie značné výhody.

Ak chcete pomenovať znaky, ktoré sa objavia, keď tímy údajovej vedy fungujú ako továrne na piny (napríklad pri jednoduchých aktualizáciách stavu): „čakanie na zmeny dátového kanála“ a „čakanie na zdroje ML Eng“ sú bežné blokátory. Verím však, že nebezpečnejší vplyv je to, čo si nevšimnete, pretože nemôžete ľutovať to, čo ešte neviete. Bezchybné vykonávanie a samoľúbosť získaná z dosahovania efektivity procesov môžu zakryť pravdu, že organizácie si neuvedomujú výhody vzdelávania, o ktoré prichádzajú.

Riešením tohto problému je samozrejme zbaviť sa metódy továrenských pinov. Na podporu učenia a opakovania by mali byť úlohy vedcov údajov všeobecné, ale so širokou zodpovednosťou nezávislou od technickej funkcie, t. j. organizovať vedcov údajov tak, aby boli optimalizovaní na učenie. To znamená najať „špecialistov na celý rad“ – všeobecných špecialistov, ktorí môžu vykonávať rôzne funkcie, od konceptu cez modelovanie, implementáciu až po meranie. Je dôležité poznamenať, že nenavrhujem, že by najímanie talentovaných ľudí malo znížiť počet zamestnancov. Skôr budem jednoducho predpokladať, že keď sú organizovaní inak, ich stimuly sú lepšie zosúladené s výhodami učenia a výkonu. Povedzme napríklad, že máte tím troch ľudí s tromi obchodnými zručnosťami. V továrni na výrobu kolíkov bude každý technik venovať tretinu svojho času každej pracovnej úlohe, pretože nikto iný nemôže robiť jeho prácu. V plnom rozsahu sa každý všeobecný odborník plne venuje celému obchodnému procesu, rozširovaniu a školeniam.

S menším počtom ľudí, ktorí podporujú výrobný cyklus, sa znižuje koordinácia. Všeobecný používateľ sa plynule pohybuje medzi funkciami, rozširuje dátový kanál, aby pridával ďalšie údaje, skúšal nové funkcie v modeloch, zavádzal nové verzie do výroby na kauzálne merania a opakoval kroky tak rýchlo, ako sa objavia nové nápady. Samozrejme, kombi plní rôzne funkcie postupne a nie paralelne. Je to predsa len jeden človek. Dokončenie úlohy však zvyčajne trvá len zlomok času potrebného na prístup k inému špecializovanému zdroju. Čas iterácie sa teda skracuje.

Náš všeobecný odborník nemusí byť taký zručný ako špecialista na určitú pracovnú funkciu, ale nesnažíme sa o funkčnú dokonalosť ani o malé postupné zlepšenia. Skôr sa snažíme vzdelávať a objavovať stále viac profesionálnych výziev s postupným dosahom. S holistickým kontextom pre kompletné riešenie vidí príležitosti, ktoré by odborník premeškal. Má viac nápadov a viac možností. Aj jemu sa nedarí. Cena neúspechu je však nízka a prínos učenia vysoký. Táto asymetria podporuje rýchle opakovanie a odmeňuje učenie.

Je dôležité poznamenať, že miera autonómie a rozmanitosti zručností poskytnutá vedcom s plným zásobníkom do značnej miery závisí od robustnosti dátovej platformy, na ktorej sa pracuje. Dobre navrhnutá dátová platforma abstrahuje dátových vedcov od zložitosti kontajnerizácie, distribuovaného spracovania, automatického prepnutia pri zlyhaní a iných pokročilých výpočtových konceptov. Okrem abstrakcie môže robustná dátová platforma poskytnúť bezproblémové pripojenie k experimentálnej infraštruktúre, automatizovať monitorovanie a upozorňovanie, umožniť automatické škálovanie a vizualizáciu výsledkov algoritmov a ladenia. Tieto komponenty sú navrhnuté a zostavené inžiniermi dátových platforiem, čo znamená, že ich neposielajú od vedcov dát do tímu vývoja dátových platforiem. Je to špecialista Data Science, ktorý je zodpovedný za všetok kód používaný na spustenie platformy.

Aj ja som sa kedysi zaujímal o funkčnú deľbu práce pomocou efektivity procesov, ale prostredníctvom pokusov a omylov (nie je lepší spôsob, ako sa učiť) som zistil, že typické roly lepšie uľahčujú učenie a inovácie a poskytujú správne metriky: objavovanie a budovanie oveľa viac obchodných príležitostí ako špecializovaný prístup. (Efektívnejším spôsobom, ako sa dozvedieť o tomto prístupe k organizácii ako pokusy a omyly, ktorými som prešiel, je prečítať si knihu Amy Edmondson Team Collaboration: How Organizations Learn, Innove, and Compete in the Knowledge Economy).

Existuje niekoľko dôležitých predpokladov, vďaka ktorým môže byť tento prístup k organizácii v niektorých spoločnostiach viac či menej spoľahlivý. Iteračný proces znižuje náklady na pokusy a omyly. Ak sú náklady na chybu vysoké, možno ich budete chcieť znížiť (neodporúča sa to však pre medicínske aplikácie alebo výrobu). Okrem toho, ak pracujete s petabajtmi alebo exabajtmi údajov, môže byť potrebná špecializácia na dátové inžinierstvo. Podobne, ak je udržiavanie schopností online podnikania a ich dostupnosti dôležitejšie ako ich zlepšovanie, funkčná dokonalosť môže prekonať učenie. Nakoniec, model plného zásobníka sa spolieha na názory ľudí, ktorí o ňom vedia. Nie sú to jednorožce; môžete ich nájsť alebo pripraviť sami. Sú však veľmi žiadané a ich prilákanie a udržanie si bude vyžadovať konkurencieschopnú kompenzáciu, silné firemné hodnoty a náročnú prácu. Uistite sa, že vaša firemná kultúra to môže podporovať.

Napriek všetkému, čo bolo povedané, som presvedčený, že model s plným zásobníkom poskytuje najlepšie štartovacie podmienky. Začnite s nimi a potom vedome smerujte k funkčnej deľbe práce len vtedy, keď je to absolútne nevyhnutné.

Existujú aj ďalšie nevýhody funkčnej špecializácie. To môže viesť k strate zodpovednosti a pasivite zo strany pracovníkov. Sám Smith kritizuje deľbu práce, pričom naznačuje, že vedie k otupeniu talentu, t.j. pracovníci sa stávajú nevedomými a stiahnutými do seba, pretože ich úlohy sú obmedzené na niekoľko opakujúcich sa úloh. Aj keď špecializácia môže zabezpečiť efektivitu procesov, je menej pravdepodobné, že bude inšpirovať pracovníkov.

Na druhej strane, všestranné roly poskytujú všetky veci, ktoré riadia spokojnosť s prácou: samostatnosť, majstrovstvo a účel. Autonómia spočíva v tom, že pri dosahovaní úspechu nezávisia od ničoho. Majstrovstvo spočíva v silných konkurenčných výhodách. A zmysel pre účel spočíva v príležitosti mať vplyv na podnikanie, ktoré vytvárajú. Ak dokážeme ľudí nadchnúť pre ich prácu a mať veľký vplyv na spoločnosť, všetko ostatné zapadne.

Zdroj: hab.com

Pridať komentár