Varför Data Science-team behöver generalister, inte specialister

Varför Data Science-team behöver generalister, inte specialister
HIROSHI WATANABE/GETTY IMAGES

I The Wealth of Nations visar Adam Smith hur arbetsfördelningen blir den främsta källan till ökad produktivitet. Ett exempel är monteringslinjen för en stiftfabrik: "En arbetare drar i tråden, en annan rätar ut den, en tredje skär den, en fjärde skärper änden, en femte slipar den andra änden för att passa huvudet." Tack vare specialisering fokuserad på specifika funktioner blir varje anställd en högt kvalificerad specialist i sitt smala uppdrag, vilket leder till ökad processeffektivitet. Produktionen per arbetare ökar många gånger och fabriken blir effektivare när det gäller att tillverka stift.

Denna arbetsfördelning efter funktionalitet är så inarbetad i våra sinnen än idag att vi snabbt organiserade våra team därefter. Data Science är inget undantag. Komplexa algoritmiska affärsmöjligheter kräver flera arbetsfunktioner, så företag skapar vanligtvis team av specialister: forskare, dataingenjörer, maskininlärningsingenjörer, orsaks-och-verkan-forskare och så vidare. Specialisternas arbete koordineras av produktchefen med överföring av funktioner på ett sätt som liknar en stiftfabrik: "en person tar emot data, en annan modellerar den, en tredje utför den, en fjärde mäter" och så vidare,

Tyvärr bör vi inte optimera våra Data Science-team för att förbättra produktiviteten. Det gör du dock när du förstår vad du producerar: stift eller något annat, och helt enkelt strävar efter att öka effektiviteten. Syftet med löpande band är att slutföra en uppgift. Vi vet precis vad vi vill ha – pins (som i Smiths exempel), men vilken produkt eller tjänst som helst kan nämnas där kraven fullt ut beskriver alla aspekter av produkten och dess beteende. Medarbetarnas roll är att uppfylla dessa krav så effektivt som möjligt.

Men målet med Data Science är inte att slutföra uppgifter. Målet är snarare att utforska och utveckla starka nya affärsmöjligheter. Algoritmiska produkter och tjänster som rekommendationssystem, kundinteraktioner, klassificering av stilpreferenser, storlek, kläddesign, logistikoptimering, säsongsbetonad trenddetektering och mycket mer kan inte utvecklas i förväg. De måste studeras. Det finns inga ritningar att replikera, dessa är nya möjligheter med inneboende osäkerhet. Koefficienter, modeller, modelltyper, hyperparametrar, alla nödvändiga element måste läras in genom experiment, försök och fel och upprepning. Med stift görs träning och design inför produktionen. Med Data Science lär du dig som du gör, inte tidigare.

I en stiftfabrik, när utbildning kommer först, varken förväntar eller vill vi att arbetare ska improvisera på någon egenskap hos produkten förutom att förbättra produktionseffektiviteten. Att specialisera uppgifter är vettigt eftersom det leder till processeffektivitet och produktionskonsistens (utan förändringar i slutprodukten).

Men när produkten fortfarande utvecklas och målet är träning, stör specialisering våra mål i följande fall:

1. Det ökar samordningskostnaderna.

Det vill säga de kostnader som ackumuleras under tiden som går åt till att kommunicera, diskutera, motivera och prioritera det arbete som behöver göras. Dessa kostnader skalas superlinjärt med antalet inblandade personer. (Som J. Richard Hackman lärde oss, växer antalet relationer r på samma sätt som funktionen av antalet termer n enligt denna ekvation: r = (n^2-n)/2. Och varje samband avslöjar en del av kostnadsförhållande.) När datavetare organiseras efter funktion, i varje skede, vid varje förändring, varje överlämning etc. krävs många specialister, vilket ökar samordningskostnaderna. Till exempel måste statistiska modellerare som vill experimentera med nya funktioner samordna sig med dataingenjörer som lägger till datamängderna varje gång de vill prova något nytt. Likaså innebär varje ny modell utbildad att modellutvecklaren kommer att behöva någon att samordna med för att sätta den i produktion. Samordningskostnader fungerar som ett pris för iteration, vilket gör dem svårare och dyrare och mer sannolikt att studien överges. Detta kan störa inlärningen.

2. Det försvårar väntetiderna.

Ännu mer skrämmande än samordningskostnaderna är den förlorade tiden mellan arbetspassen. Medan samordningskostnader vanligtvis mäts i timmar - tiden det tar att genomföra möten, diskussioner, designgranskningar - mäts väntetiden vanligtvis i dagar, veckor eller till och med månader! Funktionella specialisters scheman är svåra att balansera eftersom varje specialist måste fördelas över flera projekt. Ett möte på en timme för att diskutera förändringar kan ta veckor att jämna ut arbetsflödet. Och efter att ha kommit överens om förändringarna är det nödvändigt att planera själva arbetet i samband med många andra projekt som upptar arbetstiden för specialister. Arbete med kodfixar eller forskning som bara tar några timmar eller dagar att slutföra kan ta mycket längre tid innan resurser blir tillgängliga. Tills dess är iteration och inlärning inställda.

3. Det begränsar sammanhanget.

Arbetsfördelningen kan på konstgjord väg begränsa lärandet genom att belöna människor för att de stannar kvar i sin specialitet. Till exempel kommer en forskare som måste hålla sig inom ramen för sin funktionalitet att fokusera sin energi på att experimentera med olika typer av algoritmer: regression, neurala nätverk, random skog och så vidare. Naturligtvis kan bra algoritmval leda till stegvisa förbättringar, men det finns vanligtvis mycket mer att vinna på andra aktiviteter, som att integrera nya datakällor. På samma sätt kommer det att hjälpa till att utveckla en modell som utnyttjar varje bit av förklaringskraft som finns i data. Dess styrka kan dock ligga i att ändra den objektiva funktionen eller att lätta på vissa begränsningar. Detta är svårt att se eller göra när hennes arbete är begränsat. Eftersom en teknisk forskare är specialiserad på att optimera algoritmer är det mycket mindre troligt att han gör något annat, även om det ger betydande fördelar.

För att nämna de tecken som visas när datavetenskapsteam fungerar som pin-fabriker (till exempel i enkla statusuppdateringar): "väntar på förändringar i datapipeline" och "väntar på ML Eng-resurser" är vanliga blockerare. Jag tror dock att det farligare inflytandet är det du inte märker, för du kan inte ångra det du inte redan vet. Felfritt utförande och den självbelåtenhet som uppnås genom att uppnå processeffektivitet kan dölja sanningen att organisationer är omedvetna om de lärandefördelar de går miste om.

Lösningen på detta problem är förstås att bli av med fabriksstiftmetoden. För att uppmuntra inlärning och iteration bör datavetares roller vara generiska men med breda ansvarsområden oberoende av den tekniska funktionen, det vill säga organisera datavetare så att de är optimerade för lärande. Det innebär att anställa "full stack-specialister" – allmänna specialister som kan utföra en mängd olika funktioner, från idé till modellering, implementering till mätning. Det är viktigt att notera att jag inte föreslår att anställa full-stack talanger bör minska antalet anställda. Snarare kommer jag helt enkelt att anta att när de är organiserade annorlunda, är deras incitament bättre anpassade till inlärnings- och prestationsfördelarna. Låt oss till exempel säga att du har ett team på tre personer med tre affärskunskaper. I en stiftfabrik kommer varje tekniker att ägna en tredjedel av sin tid åt varje arbetsuppgift, eftersom ingen annan kan göra hans jobb. I en full stack är varje generalist helt dedikerad till hela affärsprocessen, uppskalning och utbildning.

Med färre personer som stödjer produktionscykeln minskar samordningen. Generalisten rör sig smidigt mellan funktioner, utökar datapipeline för att lägga till mer data, provar nya funktioner i modeller, distribuerar nya versioner till produktion för kausala mätningar och upprepar steg så fort som nya idéer dyker upp. Självklart utför kombibilen olika funktioner sekventiellt och inte parallellt. Det är trots allt bara en person. Men att slutföra en uppgift tar vanligtvis bara en bråkdel av den tid som krävs för att komma åt en annan specialiserad resurs. Så, iterationstiden minskar.

Vår generalist kanske inte är lika skicklig som en specialist på en viss arbetsfunktion, men vi strävar inte efter funktionell perfektion eller små stegvisa förbättringar. Snarare strävar vi efter att lära oss och upptäcka fler och fler professionella utmaningar med gradvis påverkan. Med ett holistiskt sammanhang för en helhetslösning ser han möjligheter som en specialist skulle missa. Han har fler idéer och fler möjligheter. Han misslyckas också. Kostnaden för att misslyckas är dock låg och fördelarna med att lära sig stora. Denna asymmetri främjar snabb iteration och belönar lärande.

Det är viktigt att notera att mängden självständighet och mångfald av färdigheter som fullstackforskare ges till stor del beror på robustheten hos den dataplattform som de kan arbeta på. En väldesignad dataplattform abstraherar dataforskare från komplexiteten med containerisering, distribuerad bearbetning, automatisk failover och andra avancerade datorkoncept. Förutom abstraktion kan en robust dataplattform ge sömlös anslutning till experimentell infrastruktur, automatisera övervakning och varning, möjliggöra automatisk skalning och visualisering av algoritmiska resultat och felsökning. Dessa komponenter är designade och byggda av dataplattformsingenjörerna, vilket innebär att de inte förs vidare från dataforskaren till dataplattformens utvecklingsteam. Det är Data Science-specialisten som är ansvarig för all kod som används för att köra plattformen.

Jag var också en gång intresserad av den funktionella arbetsfördelningen med hjälp av processeffektivitet, men genom försök och misstag (det finns inget bättre sätt att lära) upptäckte jag att typiska roller bättre underlättar lärande och innovation och ger rätt mått: att upptäcka och bygga många fler affärsmöjligheter än specialiserat tillvägagångssätt. (Ett mer effektivt sätt att lära sig om detta tillvägagångssätt för att organisera än det försök och misstag jag gick igenom är att läsa Amy Edmondsons bok Team Collaboration: How Organisations Learn, Innovate, and Compete in the Knowledge Economy).

Det finns några viktiga antaganden som kan göra detta tillvägagångssätt för att organisera mer eller mindre tillförlitligt i vissa företag. Iterationsprocessen minskar kostnaderna för trial and error. Om kostnaden för fel är hög kanske du vill minska dem (men detta rekommenderas inte för medicinska tillämpningar eller tillverkning). Dessutom, om du har att göra med petabyte eller exabyte av data, kan specialisering i datateknik krävas. På samma sätt, om det är viktigare att upprätthålla affärsmöjligheter online och deras tillgänglighet än att förbättra dem, kan funktionell excellens övertrumfa lärande. Slutligen bygger fullstackmodellen på åsikterna från personer som känner till den. De är inte enhörningar; du kan hitta dem eller förbereda dem själv. Men de är mycket efterfrågade och att attrahera och behålla dem kommer att kräva konkurrenskraftig ersättning, starka företagsvärderingar och utmanande arbete. Se till att din företagskultur kan stödja detta.

Trots allt detta tror jag att fullstackmodellen ger de bästa startförhållandena. Börja med dem och gå sedan medvetet mot en funktionell arbetsfördelning endast när det är absolut nödvändigt.

Det finns andra nackdelar med funktionell specialisering. Detta kan leda till förlust av ansvar och passivitet från arbetstagarnas sida. Smith kritiserar själv arbetsfördelningen och menar att den leder till avtrubbning av talang, d.v.s. arbetare blir okunniga och tillbakadragna eftersom deras roller är begränsade till ett fåtal upprepade uppgifter. Även om specialisering kan ge processeffektivitet, är det mindre troligt att det inspirerar arbetare.

I sin tur ger mångsidiga roller allt som driver arbetstillfredsställelse: autonomi, behärskning och syfte. Autonomi är att de inte är beroende av någonting för att nå framgång. Behärskning ligger i starka konkurrensfördelar. Och känslan av syfte ligger i möjligheten att påverka verksamheten de skapar. Om vi ​​kan få människor entusiastiska över sitt arbete och ha en stor inverkan på företaget, då kommer allt annat att falla på plats.

Källa: will.com

Lägg en kommentar