Miksi Data Science -tiimit tarvitsevat generalisteja, eivät asiantuntijoita

Miksi Data Science -tiimit tarvitsevat generalisteja, eivät asiantuntijoita
HIROSHI WATANABE/GETTY IMAGES

Adam Smith näyttää teoksessaan The Wealth of Nations, kuinka työnjaosta tulee tuottavuuden kasvun päälähde. Esimerkkinä on tappitehtaan kokoonpanolinja: "Yksi työntekijä vetää lankaa, toinen suoristaa, kolmas leikkaa, neljäs teroittaa pään, viides hioi toista päätä sopivaksi." Tiettyihin toimintoihin keskittyvän erikoistumisen ansiosta jokaisesta työntekijästä tulee erittäin pätevä asiantuntija omassa kapeassa tehtävässään, mikä lisää prosessien tehokkuutta. Tuotos työntekijää kohden moninkertaistuu ja tehdas tehostuu nastojen valmistuksessa.

Tämä toiminnallinen työnjako on niin juurtunut mieleemme vielä tänäkin päivänä, että järjestimme nopeasti tiimimme sen mukaan. Datatiede ei ole poikkeus. Monimutkaiset algoritmiset liiketoimintaominaisuudet edellyttävät useita työtoimintoja, joten yritykset muodostavat yleensä asiantuntijoista koostuvia ryhmiä: tutkijoita, tietoinsinöörejä, koneoppimisen insinöörejä, syy-seuraus-tutkijoita ja niin edelleen. Asiantuntijoiden työtä koordinoi tuotepäällikkö toimintojen siirrolla neulattehdasta muistuttavalla tavalla: "toinen vastaanottaa tiedot, toinen mallintaa, kolmas suorittaa, neljäs mittaa" ja niin edelleen,

Valitettavasti meidän ei pitäisi optimoida Data Science -tiimejämme tuottavuuden parantamiseksi. Teet tämän kuitenkin, kun ymmärrät, mitä valmistat: nastat tai jotain muuta, ja yrität yksinkertaisesti lisätä tehokkuutta. Kokoonpanolinjojen tarkoitus on suorittaa tehtävä. Tiedämme tarkalleen mitä haluamme - nastat (kuten Smithin esimerkissä), mutta mikä tahansa tuote tai palvelu voidaan mainita, jossa vaatimukset kuvaavat täydellisesti tuotteen ja sen käyttäytymisen kaikkia puolia. Työntekijöiden tehtävänä on täyttää nämä vaatimukset mahdollisimman tehokkaasti.

Mutta Data Sciencen tavoitteena ei ole suorittaa tehtäviä. Tavoitteena on pikemminkin tutkia ja kehittää uusia vahvoja liiketoimintamahdollisuuksia. Algoritmisia tuotteita ja palveluita, kuten suositusjärjestelmiä, asiakasvuorovaikutusta, tyyli mieltymysten luokittelua, mitoitusta, vaatesuunnittelua, logistiikan optimointia, kausitrendien havaitsemista ja paljon muuta ei voida kehittää etukäteen. Niitä pitää tutkia. Toistettavia suunnitelmia ei ole, nämä ovat uusia mahdollisuuksia, joihin liittyy luontaista epävarmuutta. Kertoimet, mallit, mallityypit, hyperparametrit, kaikki tarvittavat elementit on opittava kokeilemalla, kokeilemalla ja erehdyttämällä sekä toistamalla. Pinnoilla koulutus ja suunnittelu tehdään ennen tuotantoa. Datatieteen avulla opit samalla tavalla kuin ennen.

Neulatehtaassa, kun koulutus on etusijalla, emme odota emmekä halua työntekijöiden improvisoivan tuotteen minkään muun ominaisuuden suhteen kuin tuotannon tehokkuuden parantamiseksi. Tehtävien erikoistuminen on järkevää, koska se johtaa prosessien tehokkuuteen ja tuotannon johdonmukaisuuteen (ilman muutoksia lopputuotteeseen).

Mutta kun tuote on vielä kehitysvaiheessa ja tavoitteena on koulutus, erikoistuminen häiritsee tavoitteitamme seuraavissa tapauksissa:

1. Se lisää koordinointikustannuksia.

Eli ne kustannukset, jotka kertyvät kommunikointiin, keskusteluun, perustelemiseen ja tehtävän työn tärkeysjärjestykseen kuluvan ajan aikana. Nämä kustannukset skaalautuvat superlineaarisesti mukana olevien henkilöiden määrän mukaan. (Kuten J. Richard Hackman opetti, suhteiden määrä r kasvaa samalla tavalla kuin termien lukumäärän n funktio tämän yhtälön mukaisesti: r = (n^2-n)/2. Ja jokainen suhde paljastaa jonkin verran kustannussuhde.) Kun datatieteilijät organisoidaan toimintojen mukaan, jokaisessa vaiheessa, jokaisessa muutoksessa, jokaisessa luovutuksessa jne., tarvitaan monia asiantuntijoita, mikä lisää koordinointikustannuksia. Esimerkiksi tilastollisten mallintajien, jotka haluavat kokeilla uusia ominaisuuksia, on sovittava yhteen tietosuunnittelijoiden kanssa, jotka lisäävät tietojoukkoja aina, kun he haluavat kokeilla jotain uutta. Samoin jokainen koulutettu uusi malli tarkoittaa, että mallin kehittäjä tarvitsee jonkun, jonka kanssa koordinoi, jotta se saa sen tuotantoon. Koordinointikustannukset toimivat iteroinnin hintana, mikä tekee niistä vaikeampia ja kalliimpia ja aiheuttaa todennäköisemmin tutkimuksen hylkäämisen. Tämä voi häiritä oppimista.

2. Se vaikeuttaa odotusaikoja.

Koordinointikustannuksiakin pelottavampi on työvuorojen välinen aika. Vaikka koordinointikustannukset mitataan yleensä tunneissa – kokousten, keskustelujen, suunnittelukatsausten järjestämiseen kuluva aika – odotusaika mitataan yleensä päivissä, viikoissa tai jopa kuukausissa! Toiminnallisten asiantuntijoiden aikatauluja on vaikea tasapainottaa, koska jokainen asiantuntija on jaettava useisiin projekteihin. Tunnin mittainen kokous, jossa keskustellaan muutoksista, voi viedä viikkoja työnkulun tasoittamiseen. Ja muutoksista sovittua on tarpeen suunnitella itse varsinainen työ monien muiden asiantuntijoiden työaikaa vievien projektien yhteydessä. Työ, johon liittyy koodinkorjauksia tai tutkimusta, joka kestää vain muutaman tunnin tai päivän, voi kestää paljon kauemmin, ennen kuin resurssit tulevat saataville. Siihen asti iterointi ja oppiminen keskeytetään.

3. Se kaventaa kontekstia.

Työnjako voi keinotekoisesti rajoittaa oppimista palkitsemalla ihmisiä erikoisalallaan pysymisestä. Esimerkiksi tutkija, jonka on pysyttävä toiminnassaan, keskittää energiansa erityyppisten algoritmien kokeilemiseen: regressio, neuroverkot, satunnainen metsä ja niin edelleen. Tietysti hyvät algoritmivalinnat voivat johtaa asteittaisiin parannuksiin, mutta yleensä muista toiminnoista, kuten uusien tietolähteiden integroinnista, saadaan paljon enemmän irti. Samoin se auttaa kehittämään mallin, joka hyödyntää kaikkia tiedoissa olevaa selitysvoimaa. Sen vahvuus voi kuitenkin olla tavoitefunktion muuttaminen tai tiettyjen rajoitusten lieventäminen. Tätä on vaikea nähdä tai tehdä, kun hänen työnsä on rajoitettua. Koska tekninen tiedemies on erikoistunut algoritmien optimointiin, hän ei todennäköisesti tee mitään muuta, vaikka siitä olisi merkittäviä etuja.

Nimeäkseni merkkejä, jotka näkyvät datatieteiden ryhmien toimiessa neulatehtaina (esimerkiksi yksinkertaisissa tilapäivityksissä): "Odottaa dataputken muutoksia" ja "Odottaa ML Eng -resursseja" ovat yleisiä estoaineita. Uskon kuitenkin, että vaarallisempi vaikutus on se, mitä et huomaa, koska et voi katua sitä, mitä et jo tiedä. Virheetön toteutus ja prosessitehokkuuden saavuttamisesta saatu omahyväisyys voivat peittää totuuden, että organisaatiot eivät ole tietoisia oppimishyödyistä, joita he menettävät.

Ratkaisu tähän ongelmaan on tietysti päästä eroon tehdasnastamenetelmästä. Oppimisen ja iteroinnin edistämiseksi datatieteilijöiden roolien tulisi olla yleisiä, mutta niillä on oltava laajat vastuut teknisestä tehtävästä riippumatta, eli datatutkijat on järjestettävä niin, että he ovat optimoituja oppimiseen. Tämä tarkoittaa "täyden pinon asiantuntijoiden" palkkaamista – yleisiä asiantuntijoita, jotka voivat suorittaa erilaisia ​​toimintoja konseptista mallintamiseen, toteutuksesta mittaukseen. On tärkeää huomata, että en väitä, että täyden pinon osaajien palkkaamisen pitäisi vähentää työntekijöiden määrää. Pikemminkin oletan yksinkertaisesti, että kun ne on järjestetty eri tavalla, niiden kannustimet ovat paremmin linjassa oppimis- ja suoritusetujen kanssa. Oletetaan esimerkiksi, että sinulla on kolmen hengen tiimi, jolla on kolme liiketoimintataitoa. Neulatehtaassa jokainen teknikko omistaa kolmanneksen ajastaan ​​jokaiseen työtehtävään, koska kukaan muu ei voi tehdä hänen työtään. Täydessä pinossa jokainen generalisti on täysin omistautunut koko liiketoimintaprosessille, laajennukselle ja koulutukselle.

Kun tuotantosykliä tukee vähemmän ihmisiä, koordinaatio heikkenee. Generalisti liikkuu sujuvasti ominaisuuksien välillä, laajentaa dataputkea lisätäkseen dataa, kokeilee uusia ominaisuuksia malleissa, ottaa käyttöön uusia versioita tuotantoon kausaalista mittausta varten ja toistaa vaiheita niin nopeasti kuin uusia ideoita syntyy. Tietenkin farmari suorittaa erilaisia ​​toimintoja peräkkäin eikä rinnakkain. Loppujen lopuksi se on vain yksi henkilö. Tehtävän suorittaminen vie kuitenkin yleensä vain murto-osan ajasta, joka tarvitaan toisen erikoisresurssin käyttämiseen. Joten iterointiaika lyhenee.

Yleisasiantuntijamme ei ehkä ole yhtä taitava kuin asiantuntija tietyssä työtehtävässä, mutta emme pyri toiminnalliseen täydellisyyteen tai pieniin asteittaisiin parannuksiin. Pyrimme pikemminkin oppimaan ja löytämään yhä enemmän ammatillisia haasteita vähitellen. Täydellisen ratkaisun kokonaisvaltaisessa kontekstissa hän näkee mahdollisuudet, joita asiantuntija jättää käyttämättä. Hänellä on enemmän ideoita ja mahdollisuuksia. Hän myös epäonnistuu. Epäonnistumisen kustannukset ovat kuitenkin alhaiset ja oppimisen hyödyt ovat korkeat. Tämä epäsymmetria edistää nopeaa iteraatiota ja palkitsee oppimisen.

On tärkeää huomata, että täysimääräisten tutkijoiden autonomian ja taitojen monimuotoisuuden määrä riippuu suurelta osin työskentelyyn käytettävän tietoalustan kestävyydestä. Hyvin suunniteltu tietoalusta ottaa datatutkijat pois konttien, hajautetun käsittelyn, automaattisen vikasietoisuuden ja muiden edistyneiden laskentakonseptien monimutkaisuudesta. Abstraktion lisäksi vankka tietoalusta voi tarjota saumattoman liitettävyyden kokeelliseen infrastruktuuriin, automatisoida seurantaa ja hälytyksiä, mahdollistaa algoritmisten tulosten automaattisen skaalauksen ja visualisoinnin sekä virheenkorjauksen. Nämä komponentit ovat tietoalustan insinöörien suunnittelemia ja rakentamia, joten niitä ei siirretä datatieteilijältä tietoalustan kehitystiimille. Data Science -asiantuntija on vastuussa kaikesta alustan suorittamiseen käytetystä koodista.

Minäkin olin kerran kiinnostunut toiminnallisesta työnjaosta prosessitehokkuuden avulla, mutta yrityksen ja erehdyksen kautta (parempaa tapaa oppia ei ole) huomasin, että tyypilliset roolit helpottavat paremmin oppimista ja innovaatioita ja tarjoavat oikeat mittarit: löytäminen ja luoda paljon enemmän liiketoimintamahdollisuuksia kuin erikoistunut lähestymistapa. (Tehokkaampi tapa oppia tästä organisointimenetelmästä kuin kokeilu ja erehdys, jonka käyn läpi, on lukea Amy Edmondsonin kirja Team Collaboration: How Organizations Learn, Innovate and Compete in the Knowledge Economy).

On joitakin tärkeitä oletuksia, jotka voivat tehdä tästä järjestelystä enemmän tai vähemmän luotettavan joissakin yrityksissä. Iterointiprosessi vähentää yrityksen ja erehdyksen kustannuksia. Jos virhekustannukset ovat korkeat, saatat haluta vähentää niitä (mutta tätä ei suositella lääketieteellisiin sovelluksiin tai valmistukseen). Lisäksi, jos käsittelet petabavuja tai eksatavuja dataa, voi olla tarpeen erikoistua tietotekniikkaan. Samoin jos verkkoliiketoiminnan valmiuksien ja niiden saatavuuden ylläpitäminen on tärkeämpää kuin niiden parantaminen, toiminnallinen huippuosaaminen voi sopia oppimisen. Lopuksi täyspinon malli perustuu ihmisten mielipiteisiin, jotka tietävät siitä. He eivät ole yksisarvisia; voit löytää ne tai valmistaa ne itse. Niillä on kuitenkin kysyntää ja niiden houkutteleminen ja säilyttäminen vaatii kilpailukykyistä palkkausta, vahvoja yritysarvoja ja haastavaa työtä. Varmista, että yrityskulttuurisi tukee tätä.

Kaikesta huolimatta uskon, että täyspinomalli tarjoaa parhaat lähtöolosuhteet. Aloita niistä ja siirry sitten tietoisesti kohti toimivaa työnjakoa vain silloin, kun se on ehdottoman välttämätöntä.

Toiminnallisessa erikoistumisessa on muitakin haittoja. Tämä voi johtaa työntekijöiden vastuun menettämiseen ja passiivisuuteen. Smith itse arvostelee työnjakoa ja viittaa siihen, että se johtaa lahjakkuuksien tylsistymiseen, ts. työntekijät tulevat tietämättömiksi ja vetäytymään, koska heidän roolinsa rajoittuvat muutamiin toistuviin tehtäviin. Vaikka erikoistuminen voi tehostaa prosessia, se ei todennäköisesti innosta työntekijöitä.

Monipuoliset roolit puolestaan ​​tarjoavat kaikki työtyytyväisyyttä lisäävät asiat: itsenäisyyden, mestaruuden ja tarkoituksen. Autonomia on se, että he eivät ole riippuvaisia ​​mistään menestyäkseen. Mestaruus piilee vahvoissa kilpailueduissa. Ja tarkoituksenmukaisuus piilee mahdollisuudessa vaikuttaa luomaansa liiketoimintaan. Jos saamme ihmiset innostumaan työstään ja saamme aikaan suuren vaikutuksen yritykseen, kaikki muu loksahtaa paikoilleen.

Lähde: will.com

Lisää kommentti