Miks vajavad andmeteaduse meeskonnad üldistajaid, mitte spetsialiste?

Miks vajavad andmeteaduse meeskonnad üldistajaid, mitte spetsialiste?
HIROSHI WATANABE/GETTY IMAGES

Adam Smith näitab raamatus The Wealth of Nations, kuidas tööjaotus muutub tootlikkuse kasvu peamiseks allikaks. Näitena võib tuua tihvtitehase koosteliini: “Üks tööline tõmbab traati, teine ​​ajab sirgu, kolmas lõikab, neljas teritab otsa, viies lihvib teist otsa, et see pea sobiks. Tänu spetsiifilistele funktsioonidele keskendunud spetsialiseerumisele saab iga töötaja oma kitsas ülesandes kõrgelt kvalifitseeritud spetsialist, mis suurendab protsesside efektiivsust. Tootlikkus töötaja kohta suureneb mitu korda ja tehas muutub tihvtide tootmisel tõhusamaks.

Selline tööjaotus funktsionaalsuse järgi on meie meeltesse niivõrd juurdunud ka tänapäeval, et organiseerisime oma meeskonnad kiiresti vastavalt sellele. Andmeteadus pole erand. Komplekssed algoritmilised ärivõimalused nõuavad mitut tööfunktsiooni, nii et ettevõtted loovad tavaliselt spetsialistide meeskonnad: teadlased, andmeinsenerid, masinõppe insenerid, põhjus-tagajärg teadlased jne. Spetsialistide tööd koordineerib tootejuht funktsioonide üleandmisega nõelavabriku moodi: “üks võtab andmed vastu, teine ​​modelleerib, kolmas teostab, neljas mõõdab” jne.

Kahjuks ei tohiks me oma andmeteaduse meeskondi tootlikkuse parandamiseks optimeerida. Seda teete aga siis, kui saate aru, mida toodate: tihvte või midagi muud, ja püüate lihtsalt tõhusust suurendada. Koosteliinide eesmärk on täita ülesanne. Teame täpselt, mida tahame – nööpnõelad (nagu Smithi näites), kuid mainida võib mis tahes toodet või teenust, mille nõuded kirjeldavad täielikult toote kõiki aspekte ja selle käitumist. Töötajate roll on neid nõudeid võimalikult tõhusalt täita.

Kuid andmeteaduse eesmärk ei ole ülesannete täitmine. Pigem on eesmärk uurida ja arendada uusi tugevaid ärivõimalusi. Algoritmilisi tooteid ja teenuseid, nagu soovitussüsteemid, klientidega suhtlemine, stiilieelistuste klassifitseerimine, suurus, rõivadisain, logistika optimeerimine, hooajaliste trendide tuvastamine ja palju muud, ei saa ette arendada. Neid tuleb uurida. Puuduvad plaanid, mida korrata, need on uued võimalused, millele on omane ebakindlus. Koefitsiendid, mudelid, mudelitüübid, hüperparameetrid, kõik vajalikud elemendid tuleb õppida katsetamise, katse-eksituse ja kordamise teel. Nööpnõeltega tehakse koolitus ja disain enne tootmist. Andmeteaduse abil õpite nii, nagu teete, mitte varem.

Kui nööpnõelatehases on esikohal koolitus, siis me ei eelda ega soovi, et töötajad improviseeriksid toote mõne muu omaduse osas peale tootmise tõhususe parandamise. Tööülesannete spetsialiseerimine on mõttekas, kuna see toob kaasa protsessi tõhususe ja tootmise järjepidevuse (ilma lõpptoote muutmiseta).

Kuid kui toode alles areneb ja eesmärgiks on koolitus, segab spetsialiseerumine meie eesmärke järgmistel juhtudel:

1. See suurendab koordineerimiskulusid.

Ehk siis need kulud, mis kogunevad aja jooksul, mis kulub suhtlemisele, arutamisele, põhjendamisele ja tehtavate tööde tähtsuse järjekorda seadmisele. Need kulud ulatuvad ülilineaarselt seotud inimeste arvuga. (Nagu J. Richard Hackman meile õpetas, kasvab seoste arv r sarnaselt liikmete arvu n funktsiooniga vastavalt sellele võrrandile: r = (n^2-n)/2. Ja iga seos paljastab teatud hulga kulusuhe.) Kui andmeteadlased on organiseeritud funktsioonide järgi, igas etapis, iga muudatuse, iga üleandmise jne korral, on vaja palju spetsialiste, mis suurendab koordineerimiskulusid. Näiteks statistilised modelleerijad, kes soovivad katsetada uusi funktsioone, peavad kooskõlastama andmeinseneridega, kes lisavad andmekogumeid iga kord, kui soovivad midagi uut proovida. Samuti tähendab iga uue mudeli väljaõpe, et mudeli arendajal on vaja kedagi, kellega koostööd teha, et see kasutusele võtta. Koordineerimiskulud toimivad iteratsiooni hinnana, muutes need keerulisemaks ja kallimaks ning põhjustades tõenäolisemalt uuringust loobumise. See võib õppimist segada.

2. See muudab ooteajad keeruliseks.

Koordineerimiskuludest veelgi hirmutavam on töövahetuste vahel kaotatud aeg. Kui koordineerimiskulusid mõõdetakse tavaliselt tundides – koosolekute, arutelude, disainiülevaatuste läbiviimiseks kuluv aeg –, siis ooteaega mõõdetakse tavaliselt päevades, nädalates või isegi kuudes! Funktsionaalsete spetsialistide ajakavasid on raske tasakaalustada, sest iga spetsialist peab olema jaotatud mitme projekti vahel. Tunnine koosolek muudatuste arutamiseks võib töövoo sujuvamaks muutmiseks võtta nädalaid. Ja pärast muudatuste kokkuleppimist on vaja planeerida tegelik töö ise paljude teiste spetsialistide tööaega hõivavate projektide kontekstis. Töö, mis hõlmab koodiparandusi või uuringuid, mis võtab aega vaid mõne tunni või päeva, võib võtta palju kauem aega, enne kui ressursse saab kasutada. Kuni selle ajani on iteratsioon ja õppimine peatatud.

3. See kitsendab konteksti.

Tööjaotus võib õppimist kunstlikult piirata, premeerides inimesi oma erialale jäämise eest. Näiteks teadlane, kes peab jääma oma funktsionaalsuse piiridesse, keskendub oma energia katsetamisele erinevat tüüpi algoritmidega: regressioon, närvivõrgud, juhuslik mets jne. Muidugi võivad head algoritmivalikud kaasa tuua järkjärgulisi täiustusi, kuid tavaliselt on muudest tegevustest, näiteks uute andmeallikate integreerimisest, palju rohkem kasu. Samuti aitab see välja töötada mudeli, mis kasutab ära iga andmetele omase seletusjõu. Selle tugevus võib aga seisneda eesmärgifunktsiooni muutmises või teatud piirangute leevendamises. Seda on raske näha või teha, kui tema töö on piiratud. Kuna tehnikateadlane on spetsialiseerunud algoritmide optimeerimisele, teeb ta palju väiksema tõenäosusega midagi muud, isegi kui see toob märkimisväärset kasu.

Kui nimetada märke, mis ilmuvad siis, kui andmeteaduse meeskonnad tegutsevad tihvtide tehastena (näiteks lihtsates olekuvärskendustes): "andmekonveieri muudatuste ootamine" ja "ML Eng ressursside ootamine" on tavalised blokeerijad. Siiski usun, et ohtlikum mõju on see, mida sa ei märka, sest sa ei saa kahetseda seda, mida sa veel ei tea. Laitmatu täitmine ja protsessi tõhususe saavutamisest saadud rahulolu võivad varjata tõde, et organisatsioonid ei ole teadlikud õppimise eelistest, millest nad ilma jäävad.

Selle probleemi lahenduseks on loomulikult vabaneda tehase pin-meetodist. Õppimise ja iteratsiooni soodustamiseks peaksid andmeteadlaste rollid olema üldised, kuid laiaulatuslike kohustustega, mis ei sõltu tehnilisest funktsioonist, st korraldama andmeteadlased nii, et nad oleksid õppimiseks optimeeritud. See tähendab "täieliku virna spetsialistide" palkamist – üldspetsialiste, kes suudavad täita mitmesuguseid funktsioone alates kontseptsioonist kuni modelleerimiseni, rakendamisest kuni mõõtmiseni. Oluline on märkida, et ma ei väida, et talentide palkamine peaks töötajate arvu vähendama. Pigem eeldan ma lihtsalt, et kui need on erinevalt korraldatud, on nende stiimulid paremini kooskõlas õppimise ja tulemuslikkuse eelistega. Oletame näiteks, et teil on kolmest inimesest koosnev meeskond, kellel on kolm ärioskust. Nõelavabrikus pühendab iga tehnik kolmandiku oma ajast igale tööülesandele, sest keegi teine ​​ei saa tema tööd teha. Täielikus virnas on iga generalist täielikult pühendunud kogu äriprotsessile, laiendamisele ja koolitusele.

Kuna tootmistsüklit toetab vähem inimesi, väheneb koordineerimine. Generalist liigub sujuvalt funktsioonide vahel, laiendades andmekonveieri, et lisada rohkem andmeid, proovides mudelites uusi funktsioone, juurutades põhjuslike mõõtmiste jaoks uusi versioone tootmisse ja korrates samme nii kiiresti, kui uued ideed tekivad. Muidugi täidab universaal erinevaid funktsioone järjestikku ja mitte paralleelselt. Lõppude lõpuks on see ainult üks inimene. Ülesande täitmine võtab aga tavaliselt vaid murdosa ajast, mis kulub mõnele muule spetsiaalsele ressursile juurdepääsuks. Seega iteratsiooniaeg väheneb.

Meie üldarst ei pruugi olla nii kogenud kui spetsialist konkreetse tööfunktsiooni alal, kuid me ei püüdle funktsionaalse täiuslikkuse ega väikeste järkjärguliste täiustuste poole. Pigem püüame õppida ja avastada järjest rohkem ja järk-järgult mõjuvaid professionaalseid väljakutseid. Terviklahenduse tervikliku konteksti juures näeb ta võimalusi, millest spetsialist puudust tunneks. Tal on rohkem ideid ja rohkem võimalusi. Ka tema ebaõnnestub. Ebaõnnestumise hind on aga madal ja õppimisest saadav kasu on suur. See asümmeetria soodustab kiiret iteratsiooni ja premeerib õppimist.

Oluline on märkida, et teadlastele pakutav autonoomia ja oskuste mitmekesisus sõltub suuresti selle andmeplatvormi töökindlusest, millel töötada. Hästi läbimõeldud andmeplatvorm eemaldab andmeteadlased konteineriseerimise, hajutatud töötlemise, automaatse tõrkesiirde ja muude täiustatud andmetöötluskontseptsioonide keerukusest. Lisaks abstraktsioonile võib tugev andmeplatvorm pakkuda sujuvat ühenduvust eksperimentaalse infrastruktuuriga, automatiseerida jälgimist ja hoiatusi, võimaldada automaatset skaleerimist ja algoritmiliste tulemuste visualiseerimist ning silumist. Need komponendid on kujundanud ja ehitanud andmeplatvormi insenerid, mis tähendab, et andmeteadlane ei anna neid edasi andmeplatvormi arendusmeeskonnale. Andmeteaduse spetsialist vastutab kogu platvormi käitamiseks kasutatava koodi eest.

Ka mind huvitas kunagi funktsionaalne tööjaotus protsessi tõhusust kasutades, kuid katse-eksituse meetodil (pole paremat õppimisviisi) avastasin, et tüüpilised rollid hõlbustavad paremini õppimist ja innovatsiooni ning pakuvad õigeid mõõdikuid: avastamist ja luua palju rohkem ärivõimalusi kui spetsialiseerunud lähenemine. (Tõhusam viis selle organiseerimisviisi tundmaõppimiseks kui katse-eksituse meetod, mille läbisin, on lugeda Amy Edmondsoni raamatut Team Collaboration: How Organizations Learn, Innovate and Compete in the Knowledge Economy).

Mõned olulised eeldused võivad muuta selle organiseerimisviisi mõnes ettevõttes enam-vähem usaldusväärseks. Iteratsiooniprotsess vähendab katse-eksituse kulusid. Kui vea hind on kõrge, võite soovida neid vähendada (kuid seda ei soovitata meditsiiniliste rakenduste või tootmise puhul). Lisaks võib petabaitide või eksabaitide andmete puhul olla vajalik spetsialiseerumine andmetöötlusele. Samuti, kui veebipõhise äritegevuse võimaluste ja nende kättesaadavuse säilitamine on olulisem kui nende täiustamine, võib funktsionaalne tipptase õppimise üle ületada. Lõpuks toetub täispakkmudel nende inimeste arvamustele, kes sellest teavad. Nad ei ole ükssarved; võite need leida või ise valmistada. Nende järele on aga suur nõudlus ning nende meelitamine ja hoidmine nõuab konkurentsivõimelist tasu, tugevaid ettevõtte väärtusi ja väljakutseid pakkuvat tööd. Veenduge, et teie ettevõtte kultuur saaks seda toetada.

Isegi kõigele eelnevale vaatamata usun, et täispaki mudel pakub parimaid starditingimusi. Alustage neist ja liikuge siis teadlikult funktsionaalse tööjaotuse poole ainult siis, kui see on hädavajalik.

Funktsionaalsel spetsialiseerumisel on ka teisi puudusi. See võib kaasa tuua töötajate vastutuse kaotuse ja passiivsuse. Smith ise kritiseerib tööjaotust, vihjates, et see viib talendi tuhmumiseni, s.t. töötajad muutuvad teadmatuks ja endassetõmbuvaks, kuna nende rollid piirduvad mõne korduva ülesandega. Kuigi spetsialiseerumine võib tagada protsessi tõhususe, ei inspireeri see töötajaid tõenäoliselt.

Mitmekülgsed rollid pakuvad omakorda kõike, mis tõstab tööga rahulolu: autonoomia, meisterlikkus ja eesmärk. Autonoomia seisneb selles, et edu saavutamiseks ei sõltu nad millestki. Meisterlikkus seisneb tugevates konkurentsieelistes. Ja eesmärgitunne peitub võimaluses oma loodavat äri mõjutada. Kui suudame inimesi oma tööst elevust tekitada ja ettevõttele suurt mõju avaldada, siis kõik muu loksub paika.

Allikas: www.habr.com

Lisa kommentaar