Hvorfor Data Science-teams har brug for generalister, ikke specialister

Hvorfor Data Science-teams har brug for generalister, ikke specialister
HIROSHI WATANABE/GETTY BILLEDER

I The Wealth of Nations viser Adam Smith, hvordan arbejdsdelingen bliver hovedkilden til øget produktivitet. Et eksempel er samlebåndet for en stiftfabrik: "En arbejder trækker i tråden, en anden retter den ud, en tredje skærer den af, en fjerde skærper enden, en femte sliber den anden ende, så den passer til hovedet." Takket være specialisering fokuseret på specifikke funktioner bliver hver medarbejder en højt kvalificeret specialist i sin snævre opgave, hvilket fører til øget proceseffektivitet. Produktionen pr. arbejder stiger mange gange, og fabrikken bliver mere effektiv til at producere stifter.

Denne arbejdsdeling efter funktionalitet er så indgroet i vores sind selv i dag, at vi hurtigt organiserede vores teams derefter. Data Science er ingen undtagelse. Komplekse algoritmiske forretningsmuligheder kræver flere arbejdsfunktioner, så virksomheder opretter typisk teams af specialister: forskere, dataingeniører, maskinlæringsingeniører, årsag-og-virkningsforskere og så videre. Specialisternes arbejde koordineres af produktchefen med overførsel af funktioner på en måde, der ligner en stiftfabrik: "en person modtager dataene, en anden modellerer dem, en tredje udfører dem, en fjerde måler" og så videre,

Desværre bør vi ikke optimere vores Data Science-teams for at forbedre produktiviteten. Det gør du dog, når du forstår, hvad du producerer: stifter eller noget andet, og blot stræber efter at øge effektiviteten. Formålet med samlebånd er at udføre en opgave. Vi ved præcis, hvad vi vil have - pins (som i Smiths eksempel), men ethvert produkt eller service kan nævnes, hvor kravene fuldt ud beskriver alle aspekter af produktet og dets adfærd. Medarbejdernes rolle er at opfylde disse krav så effektivt som muligt.

Men målet med Data Science er ikke at fuldføre opgaver. Målet er snarere at udforske og udvikle stærke nye forretningsmuligheder. Algoritmiske produkter og tjenester såsom anbefalingssystemer, kundeinteraktioner, klassificering af stilpræferencer, størrelse, tøjdesign, logistikoptimering, sæsonbestemt trenddetektion og meget mere kan ikke udvikles på forhånd. De skal studeres. Der er ingen tegninger at kopiere, det er nye muligheder med iboende usikkerhed. Koefficienter, modeller, modeltyper, hyperparametre, alle nødvendige elementer skal læres gennem eksperimentering, forsøg og fejl og gentagelse. Med stifter udføres træning og design forud for produktionen. Med Data Science lærer du som du gør, ikke før.

På en stiftfabrik, når træning kommer først, forventer eller ønsker vi hverken, at arbejdere improviserer på nogen egenskaber ved produktet udover at forbedre produktionseffektiviteten. Specialisering af opgaver giver mening, fordi det fører til proceseffektivitet og produktionskonsistens (uden ændringer i slutproduktet).

Men når produktet stadig er under udvikling, og målet er træning, forstyrrer specialisering vores mål i følgende tilfælde:

1. Det øger koordineringsomkostningerne.

Det vil sige de omkostninger, der akkumuleres i løbet af den tid, der bruges på at kommunikere, diskutere, begrunde og prioritere det arbejde, der skal udføres. Disse omkostninger skaleres superlineært med antallet af involverede personer. (Som J. Richard Hackman lærte os, vokser antallet af relationer r på samme måde som funktionen af ​​antallet af led n ifølge denne ligning: r = (n^2-n)/2. Og hvert forhold afslører en vis mængde af omkostningsforhold.) Når data scientists er organiseret efter funktion, på hvert trin, med hver ændring, hver overdragelse osv., kræves der mange specialister, hvilket øger koordineringsomkostningerne. For eksempel vil statistiske modelbyggere, der ønsker at eksperimentere med nye funktioner, være nødt til at koordinere med dataingeniører, der tilføjer til datasættene, hver gang de vil prøve noget nyt. Ligeledes betyder hver ny model, der trænes, at modeludvikleren skal bruge nogen at koordinere med for at sætte den i produktion. Koordinationsomkostninger fungerer som en pris for iteration, hvilket gør dem sværere og dyrere og mere tilbøjelige til at forårsage, at undersøgelsen bliver opgivet. Dette kan forstyrre indlæringen.

2. Det gør ventetider svære.

Endnu mere skræmmende end koordineringsomkostninger er den tid, der går tabt mellem arbejdsskift. Mens koordinationsomkostninger normalt måles i timer - den tid det tager at gennemføre møder, diskussioner, designgennemgange - måles ventetiden normalt i dage, uger eller endda måneder! Funktionelle specialisters tidsplaner er svære at balancere, fordi hver specialist skal fordeles på flere projekter. Et møde på én time for at diskutere ændringer kan tage uger at udjævne arbejdsgangen. Og efter at være blevet enige om ændringerne, er det nødvendigt at planlægge selve arbejdet i forbindelse med mange andre projekter, der optager arbejdstiden for specialister. Arbejde, der involverer koderettelser eller research, der kun tager et par timer eller dage at fuldføre, kan tage meget længere tid, før ressourcer bliver tilgængelige. Indtil da er iteration og læring suspenderet.

3. Det indsnævrer konteksten.

Arbejdsdelingen kan kunstigt begrænse læring ved at belønne folk for at forblive i deres speciale. For eksempel vil en forsker, der skal holde sig inden for rammerne af sin funktionalitet, fokusere sin energi på at eksperimentere med forskellige typer algoritmer: regression, neurale netværk, tilfældig skov og så videre. Selvfølgelig kan gode algoritmevalg føre til trinvise forbedringer, men der er typisk meget mere at hente ved andre aktiviteter, såsom at integrere nye datakilder. Ligeledes vil det hjælpe med at udvikle en model, der udnytter enhver forklaringskraft, der ligger i dataene. Dets styrke kan dog ligge i at ændre den objektive funktion eller at slække på visse begrænsninger. Dette er svært at se eller gøre, når hendes arbejde er begrænset. Fordi en teknisk videnskabsmand har specialiseret sig i at optimere algoritmer, er han meget mindre tilbøjelig til at gøre noget andet, selvom det giver betydelige fordele.

For at nævne de tegn, der vises, når datavidenskabsteams fungerer som pin-fabrikker (for eksempel i simple statusopdateringer): "venter på ændringer i datapipeline" og "venter på ML Eng-ressourcer" er almindelige blokeringer. Jeg tror dog, at den mere farlige indflydelse er, hvad du ikke bemærker, fordi du ikke kan fortryde det, du ikke allerede ved. Fejlfri eksekvering og selvtilfredsheden opnået ved at opnå proceseffektivitet kan maskere sandheden om, at organisationer er uvidende om de læringsmæssige fordele, de går glip af.

Løsningen på dette problem er selvfølgelig at slippe af med fabriksstiftmetoden. For at tilskynde til læring og iteration bør roller som dataforskere være generiske, men med et bredt ansvar uafhængigt af den tekniske funktion, dvs. organisere dataforskere, så de er optimeret til læring. Det betyder at ansætte "full stack-specialister" - generelle specialister, som kan udføre en række funktioner, fra koncept til modellering, implementering til måling. Det er vigtigt at bemærke, at jeg ikke foreslår, at ansættelse af full-stack-talenter skal reducere antallet af medarbejdere. Jeg vil snarere blot antage, at når de er organiseret anderledes, er deres incitamenter bedre tilpasset lærings- og præstationsfordelene. Lad os f.eks. sige, at du har et team på tre personer med tre forretningskompetencer. I en stiftfabrik vil hver tekniker bruge en tredjedel af sin tid til hver opgave, da ingen andre kan udføre hans arbejde. I en fuld stack er hver generalist fuldt dedikeret til hele forretningsprocessen, opskalering og træning.

Med færre mennesker, der understøtter produktionscyklussen, reduceres koordineringen. Generalisten bevæger sig flydende mellem funktioner, udvider datapipelinen for at tilføje flere data, prøver nye funktioner i modeller, implementerer nye versioner til produktion til årsagsmålinger og gentager trin, så hurtigt som nye ideer dukker op. Selvfølgelig udfører stationcaren forskellige funktioner sekventielt og ikke parallelt. Det er trods alt kun én person. Men at fuldføre en opgave tager normalt kun en brøkdel af den tid, det tager at få adgang til en anden specialiseret ressource. Så iterationstiden falder.

Vores generalist er måske ikke så dygtig som en specialist i en bestemt jobfunktion, men vi stræber ikke efter funktionel perfektion eller små trinvise forbedringer. Vi stræber snarere efter at lære og opdage flere og flere faglige udfordringer med gradvis gennemslagskraft. Med en holistisk kontekst for en komplet løsning ser han muligheder, som en specialist ville gå glip af. Han har flere ideer og flere muligheder. Han fejler også. Men omkostningerne ved fiasko er lave, og fordelene ved at lære er høje. Denne asymmetri fremmer hurtig iteration og belønner læring.

Det er vigtigt at bemærke, at mængden af ​​autonomi og færdighedsdiversitet, som fuld stack-forskere får, i høj grad afhænger af robustheden af ​​den dataplatform, som de kan arbejde på. En veldesignet dataplatform abstraherer datavidenskabsfolk fra kompleksiteten af ​​containerisering, distribueret behandling, automatisk failover og andre avancerede computerkoncepter. Ud over abstraktion kan en robust dataplatform give problemfri forbindelse til eksperimentel infrastruktur, automatisere overvågning og alarmering, muliggøre automatisk skalering og visualisering af algoritmiske resultater og fejlfinding. Disse komponenter er designet og bygget af dataplatformsingeniørerne, hvilket betyder, at de ikke videregives fra dataforskeren til dataplatformens udviklingsteam. Det er Data Science-specialisten, der er ansvarlig for al den kode, der bruges til at køre platformen.

Jeg var også engang interesseret i den funktionelle arbejdsdeling ved hjælp af proceseffektivitet, men gennem forsøg og fejl (der er ingen bedre måde at lære på), opdagede jeg, at typiske roller bedre letter læring og innovation og giver de rigtige målinger: opdage og opbygge mange flere forretningsmuligheder end specialiseret tilgang. (En mere effektiv måde at lære om denne tilgang til organisering end den prøve og fejl, jeg gik igennem, er at læse Amy Edmondsons bog Team Collaboration: How Organisations Learn, Innovate, and Compete in the Knowledge Economy).

Der er nogle vigtige antagelser, der kan gøre denne tilgang til organisering mere eller mindre pålidelig i nogle virksomheder. Iterationsprocessen reducerer omkostningerne ved forsøg og fejl. Hvis omkostningerne ved fejl er høje, vil du måske reducere dem (men dette anbefales ikke til medicinske applikationer eller fremstilling). Derudover, hvis du har med petabytes eller exabytes af data at gøre, kan specialisering i datateknik være påkrævet. Ligeledes, hvis det er vigtigere at opretholde online-forretningskapaciteter og deres tilgængelighed end at forbedre dem, kan funktionel ekspertise overtrumfe læring. Endelig er full stack-modellen afhængig af meninger fra folk, der kender til den. De er ikke enhjørninger; du kan finde dem eller forberede dem selv. De er dog i høj efterspørgsel, og at tiltrække og fastholde dem vil kræve konkurrencedygtig kompensation, stærke virksomhedsværdier og udfordrende arbejde. Sørg for, at din virksomhedskultur kan understøtte dette.

Selv med alt det sagt, tror jeg, at full stack-modellen giver de bedste startbetingelser. Start med dem, og bevæg dig derefter bevidst mod en funktionel arbejdsdeling, når det er absolut nødvendigt.

Der er andre ulemper ved funktionel specialisering. Dette kan føre til tab af ansvar og passivitet fra arbejdstagernes side. Smith kritiserer selv arbejdsdelingen og antyder, at den fører til sløvning af talent, dvs. arbejdere bliver uvidende og tilbagetrukne, da deres roller er begrænset til nogle få gentagne opgaver. Selvom specialisering kan give proceseffektivitet, er det mindre sandsynligt, at det inspirerer medarbejdere.

Til gengæld giver alsidige roller alle de ting, der driver arbejdsglæde: autonomi, beherskelse og formål. Autonomi er, at de ikke er afhængige af noget for at opnå succes. Mestring ligger i stærke konkurrencefordele. Og meningsfølelsen ligger i muligheden for at få indflydelse på den virksomhed, de skaber. Hvis vi kan få folk til at begejstre for deres arbejde og få stor indflydelse på virksomheden, så falder alt andet på plads.

Kilde: www.habr.com

Tilføj en kommentar