Kodėl duomenų mokslo komandoms reikia bendrininkų, o ne specialistų

Kodėl duomenų mokslo komandoms reikia bendrininkų, o ne specialistų
HIROSHI WATANABE / GETTY IMAGES

Knygoje „Tautų turtai“ Adamas Smithas parodo, kaip darbo pasidalijimas tampa pagrindiniu padidėjusio produktyvumo šaltiniu. Pavyzdžiui, kaiščių gamyklos surinkimo linija: „Vienas darbininkas traukia vielą, kitas tiesina, trečias nupjauna, ketvirtas galąsta, penktas šlifuoja kitą galą, kad tilptų galva“. Specializacijos, orientuotos į konkrečias funkcijas, dėka kiekvienas darbuotojas tampa aukštos kvalifikacijos specialistu savo siauroje užduotyje, o tai leidžia padidinti proceso efektyvumą. Vieno darbuotojo našumas padidėja daug kartų, o gamykla tampa efektyvesnė gaminant kaiščius.

Šis darbo pasidalijimas pagal funkcionalumą yra taip įsišaknijęs mūsų galvose ir šiandien, kad greitai atitinkamai suorganizavome savo komandas. Duomenų mokslas nėra išimtis. Sudėtingos algoritminės verslo galimybės reikalauja kelių darbo funkcijų, todėl įmonės paprastai kuria specialistų komandas: tyrėjų, duomenų inžinierių, mašininio mokymosi inžinierių, priežasties ir pasekmės mokslininkų ir pan. Specialistų darbą su funkcijų perdavimu produktų vadybininkas derina panašiai kaip smeigtukų gamykla: „vienas gauna duomenis, kitas modeliuoja, trečias atlieka, ketvirtas matuoja“ ir pan.

Deja, neturėtume optimizuoti savo duomenų mokslo komandų, kad pagerintume produktyvumą. Tačiau taip elgiesi, kai supranti, ką gamini: smeigtukus ar dar ką nors, ir tiesiog stengiesi padidinti efektyvumą. Surinkimo linijų paskirtis – atlikti užduotį. Mes tiksliai žinome, ko norime – smeigtukų (kaip Smitho pavyzdyje), tačiau galima paminėti bet kurį produktą ar paslaugą, kurios reikalavimai pilnai apibūdina visus gaminio ir jo elgesio aspektus. Darbuotojų vaidmuo yra kuo efektyviau įvykdyti šiuos reikalavimus.

Tačiau duomenų mokslo tikslas nėra atlikti užduotis. Atvirkščiai, tikslas yra ištirti ir plėtoti stiprias naujas verslo galimybes. Algoritminių produktų ir paslaugų, tokių kaip rekomendacijų sistemos, klientų sąveika, stiliaus pasirinkimų klasifikavimas, dydžiai, drabužių dizainas, logistikos optimizavimas, sezoninių tendencijų nustatymas ir daug daugiau, negalima sukurti iš anksto. Jie turi būti išstudijuoti. Nėra brėžinių, kuriuos būtų galima atkartoti, tai yra naujos galimybės, kurioms būdingas neapibrėžtumas. Koeficientai, modeliai, modelių tipai, hiperparametrai, visi reikalingi elementai turi būti išmokti eksperimentuojant, bandymų ir klaidų būdu bei kartojimu. Su smeigtukais mokymas ir dizainas atliekami prieš pradedant gamybą. Naudodami duomenų mokslą mokate taip, kaip mokate, o ne anksčiau.

Smeigtukų gamykloje, kai mokymas yra pirmoje vietoje, mes nei tikimės, nei norime, kad darbuotojai improvizuotų dėl bet kokios gaminio savybės, išskyrus gamybos efektyvumą. Specializuoti užduotis yra prasminga, nes tai lemia proceso efektyvumą ir gamybos nuoseklumą (nekeičiant galutinio produkto).

Tačiau kai produktas vis dar kuriamas ir tikslas yra mokymas, specializacija trukdo siekti mūsų tikslų šiais atvejais:

1. Tai padidina koordinavimo išlaidas.

Tai yra tos išlaidos, kurios susikaupia per laiką, praleistą bendraujant, diskutuojant, pagrindžiant ir nustatant prioritetinius darbus, kuriuos reikia atlikti. Šios sąnaudos labai priklauso nuo dalyvaujančių žmonių skaičiaus. (Kaip mus mokė J. Richardas Hackmanas, santykių r skaičius auga panašiai kaip terminų skaičiaus n funkcija pagal šią lygtį: r = (n^2-n)/2. Ir kiekvienas ryšys atskleidžia tam tikrą sąnaudų santykis.) Kai duomenų mokslininkai organizuojami pagal funkcijas, kiekviename etape, su kiekvienu pakeitimu, kiekvienu perdavimu ir pan., reikia daug specialistų, o tai padidina koordinavimo išlaidas. Pavyzdžiui, statistiniai modeliuotojai, norintys eksperimentuoti su naujomis funkcijomis, turės derintis su duomenų inžinieriais, kurie papildo duomenų rinkinius kiekvieną kartą, kai nori išbandyti ką nors naujo. Be to, kiekvienas apmokytas naujas modelis reiškia, kad modelio kūrėjui reikės ką nors, su kuo derinti, kad jis būtų pradėtas gaminti. Koordinavimo sąnaudos yra iteracijos kaina, todėl jos tampa sudėtingesnės ir brangesnės, todėl tyrimas gali būti nutrauktas. Tai gali trukdyti mokytis.

2. Tai apsunkina laukimo laiką.

Dar baisesnis už koordinavimo išlaidas yra laikas, prarandamas tarp darbo pamainų. Nors koordinavimo kaštai paprastai matuojami valandomis – laikas, per kurį vyksta susitikimai, diskusijos, dizaino peržiūros, laukimo laikas paprastai matuojamas dienomis, savaitėmis ar net mėnesiais! Funkcinių specialistų tvarkaraščius sunku subalansuoti, nes kiekvienas specialistas turi būti paskirstytas keliems projektams. Vienos valandos trukmės susitikimas, skirtas aptarti pakeitimus, gali užtrukti kelias savaites, kad būtų išlyginta darbo eiga. O susitarus dėl pakeitimų reikia planuoti patį faktinį darbą daugelio kitų specialistų darbo laiką užimančių projektų kontekste. Darbas, susijęs su kodo pataisymais ar tyrimais, kurie trunka tik kelias valandas ar dienas, gali užtrukti daug ilgiau, kol ištekliai taps prieinami. Iki tol kartojimas ir mokymasis yra sustabdyti.

3. Tai susiaurina kontekstą.

Darbo pasidalijimas gali dirbtinai apriboti mokymąsi, apdovanojant žmones už išlikimą pagal specialybę. Pavyzdžiui, mokslininkas, kuris turi likti savo funkcionalumo ribose, sutelks savo energiją eksperimentuodamas su įvairių tipų algoritmais: regresija, neuroniniais tinklais, atsitiktiniais miškais ir pan. Žinoma, geri algoritmo pasirinkimai gali lemti laipsniškus patobulinimus, tačiau paprastai galima daug daugiau gauti iš kitos veiklos, pavyzdžiui, integruojant naujus duomenų šaltinius. Taip pat tai padės sukurti modelį, kuris išnaudotų kiekvieną duomenų aiškinamąją galią. Tačiau jo stiprybė gali slypėti tikslinės funkcijos pakeitime arba tam tikrų suvaržymų atpalaidavimu. Tai sunku pamatyti ar padaryti, kai jos darbas ribotas. Kadangi technikos mokslininkas specializuojasi algoritmų optimizavime, jis daug rečiau užsiims ką nors kita, net jei tai atneštų didelę naudą.

Norėdami pavadinti ženklus, atsirandančius, kai duomenų mokslo komandos veikia kaip smeigtukų gamyklos (pavyzdžiui, atliekant paprastus būsenos atnaujinimus): „laukiama duomenų konvejerio pakeitimų“ ir „laukiama ML Eng išteklių“ yra įprasti blokatoriai. Tačiau manau, kad pavojingesnė įtaka yra tai, ko nepastebi, nes negali gailėtis to, ko dar nežinai. Nepriekaištingas vykdymas ir pasitenkinimas, įgytas siekiant proceso efektyvumo, gali užmaskuoti tiesą, kad organizacijos nežino, kokios mokymosi naudos jos praranda.

Šios problemos sprendimas, žinoma, yra atsikratyti gamyklinio kaiščio metodo. Siekiant paskatinti mokymąsi ir kartojimąsi, duomenų mokslininkų vaidmenys turėtų būti bendri, tačiau su plačia atsakomybe, nepriklausančia nuo techninės funkcijos, t. y. duomenų mokslininkus organizuoti taip, kad jie būtų optimizuoti mokymuisi. Tai reiškia, kad reikia samdyti „viso krūvio specialistus“ – bendruosius specialistus, galinčius atlikti įvairias funkcijas – nuo ​​koncepcijos iki modeliavimo, įgyvendinimo iki matavimo. Svarbu pažymėti, kad aš nesakau, jog samdant visus talentingus darbuotojus reikėtų sumažinti darbuotojų skaičių. Atvirkščiai, aš tiesiog manysiu, kad kai jie organizuojami kitaip, jų paskatos geriau suderinamos su mokymosi ir veiklos nauda. Pavyzdžiui, tarkime, kad turite trijų žmonių komandą, turinčią tris verslo įgūdžius. Smeigtukų gamykloje kiekvienas technikas kiekvienai darbo užduočiai skirs trečdalį savo laiko, nes niekas kitas negali atlikti jo darbo. Visoje krūvoje kiekvienas generalistas yra visiškai atsidavęs visam verslo procesui, masto didinimui ir mokymui.

Kadangi gamybos ciklą palaiko mažiau žmonių, sumažėja koordinavimas. Generalistas sklandžiai juda tarp funkcijų, plečia duomenų srautą, kad pridėtų daugiau duomenų, išbandytų naujas modelių funkcijas, įdiegtų naujas versijas gamyboje, kad būtų galima nustatyti priežastinius matavimus, ir kartoja veiksmus, kai tik atsiranda naujų idėjų. Žinoma, universalas skirtingas funkcijas atlieka nuosekliai, o ne lygiagrečiai. Juk tai tik vienas žmogus. Tačiau užduoties atlikimas paprastai užtrunka tik dalį laiko, reikalingo norint pasiekti kitą specializuotą šaltinį. Taigi iteracijos laikas sumažėja.

Mūsų generalinis specialistas gali būti ne toks kvalifikuotas kaip tam tikros darbo funkcijos specialistas, tačiau mes nesiekiame funkcinio tobulumo ar nedidelių laipsniškų patobulinimų. Atvirkščiai, stengiamės mokytis ir atrasti vis daugiau profesinių iššūkių, kurių poveikis laipsniškas. Turėdamas holistinį kontekstą pilnam sprendimui, jis mato galimybes, kurių specialistas praleistų. Jis turi daugiau idėjų ir galimybių. Jam taip pat nesiseka. Tačiau nesėkmės kaina nedidelė, o mokymosi nauda – didelė. Ši asimetrija skatina greitą kartojimą ir apdovanoja mokymąsi.

Svarbu pažymėti, kad savarankiškumo ir įgūdžių įvairovė, suteikiama visiems mokslininkams, labai priklauso nuo duomenų platformos, kurioje jie dirba, patikimumo. Gerai suprojektuota duomenų platforma atitraukia duomenų mokslininkus nuo sudėtingų konteinerių, paskirstyto apdorojimo, automatinio failų perkėlimo ir kitų pažangių skaičiavimo koncepcijų. Be abstrakcijos, tvirta duomenų platforma gali užtikrinti sklandų ryšį su eksperimentine infrastruktūra, automatizuoti stebėjimą ir įspėjimus, įgalinti automatinį mastelį ir algoritminių rezultatų vizualizavimą bei derinimą. Šiuos komponentus sukūrė ir sukūrė duomenų platformos inžinieriai, o tai reiškia, kad duomenų mokslininkas jų neperduoda duomenų platformos kūrimo komandai. Būtent duomenų mokslo specialistas yra atsakingas už visą platformai paleisti naudojamą kodą.

Aš taip pat kažkada domėjausi funkciniu darbo pasidalijimu, naudojant proceso efektyvumą, tačiau per bandymus ir klaidas (geresnio būdo mokytis nėra) sužinojau, kad tipiniai vaidmenys geriau palengvina mokymąsi ir inovacijas bei suteikia reikiamą metriką: atrasti ir sukurti daug daugiau verslo galimybių nei specializuotas požiūris. (Efektyvesnis būdas sužinoti apie šį organizavimo metodą nei bandymai ir klaidos, kuriuos išgyvenau, yra perskaityti Amy Edmondson knygą Komandos bendradarbiavimas: kaip organizacijos mokosi, diegia naujoves ir konkuruoja žinių ekonomikoje).

Yra keletas svarbių prielaidų, dėl kurių kai kuriose įmonėse šis organizavimo būdas gali būti daugiau ar mažiau patikimas. Iteracijos procesas sumažina bandymų ir klaidų išlaidas. Jei klaidų kaina yra didelė, galbūt norėsite jas sumažinti (tačiau tai nerekomenduojama naudoti medicinoje ar gaminti). Be to, jei turite reikalų su petabaitais arba eksabaitais duomenų, gali prireikti specializacija duomenų inžinerijoje. Be to, jei internetinio verslo galimybių ir jų prieinamumo palaikymas yra svarbiau nei jų tobulinimas, funkcinis meistriškumas gali nugalėti mokymąsi. Galiausiai, viso krūvos modelis remiasi žmonių, kurie apie tai žino, nuomonėmis. Jie nėra vienaragiai; galite juos rasti arba patys pasigaminti. Tačiau jie yra labai paklausūs, o norint juos pritraukti ir išlaikyti reikės konkurencingo atlygio, stiprių įmonių vertybių ir iššūkių reikalaujančio darbo. Įsitikinkite, kad jūsų įmonės kultūra gali tai palaikyti.

Net ir nepaisant to, manau, kad pilno krūvos modelis suteikia geriausias starto sąlygas. Pradėkite nuo jų, o tada sąmoningai pereikite prie funkcinio darbo pasidalijimo tik tada, kai tai būtina.

Yra ir kitų funkcinės specializacijos trūkumų. Dėl to darbuotojai gali prarasti atsakomybę ir pasyvumą. Pats Smithas kritikuoja darbo pasidalijimą, teigdamas, kad tai veda prie talento nublankimo, t.y. darbuotojai tampa neišmanėliai ir uždari, nes jų vaidmenys apsiriboja keliomis pasikartojančiomis užduotimis. Nors specializacija gali užtikrinti proceso efektyvumą, mažiau tikėtina, kad ji įkvėps darbuotojus.

Savo ruožtu įvairiapusiai vaidmenys suteikia viską, kas lemia pasitenkinimą darbu: savarankiškumą, meistriškumą ir tikslą. Savarankiškumas yra tai, kad jie nuo nieko nepriklauso, kad pasiektų sėkmę. Meistriškumas priklauso nuo stiprių konkurencinių pranašumų. O tikslo jausmas slypi galimybėje daryti įtaką kuriamam verslui. Jei sugebėsime žmones sužavėti savo darbu ir turėti didelę įtaką įmonei, visa kita stos į savo vietas.

Šaltinis: www.habr.com

Добавить комментарий