Wêrom Data Science-teams hawwe generalisten nedich, net spesjalisten

Wêrom Data Science-teams hawwe generalisten nedich, net spesjalisten
HIROSHI WATANABE / GETTY IMAGES

Yn The Wealth of Nations lit Adam Smith sjen hoe't de ferdieling fan arbeid de wichtichste boarne wurdt fan ferhege produktiviteit. In foarbyld is de assemblageline fan in pinnefabryk: "De iene arbeider lûkt de tried, in oare makket it rjocht, in tredde snijt it, in fjirde skerpet it ein, in fyfde slypet it oare ein om de kop te passen." Mei tank oan spesjalisaasje rjochte op spesifike funksjes, elke meiwurker wurdt in heech kwalifisearre spesjalist yn syn smelle taak, wat liedt ta ferhege proses effisjinsje. Utfier per arbeider nimt ta in protte kearen, en it fabryk wurdt effisjinter yn it produsearjen fan pins.

Dizze ferdieling fan arbeid troch funksjonaliteit is sels hjoed de dei sa yn ús tinzen ferburgen dat wy ús teams fluch organisearje. Data Science is gjin útsûndering. Komplekse algoritmyske saaklike mooglikheden fereaskje meardere wurkfunksjes, sadat bedriuwen typysk teams fan spesjalisten meitsje: ûndersikers, data-yngenieurs, yngenieurs foar masine-learen, oarsaak-en-gevolg-wittenskippers, ensfh. It wurk fan 'e spesjalisten wurdt koördinearre troch de produktmanager mei de oerdracht fan funksjes op in manier dy't liket op in pinfabryk: "ien persoan ûntfangt de gegevens, in oar modelleart it, in tredde útfiert it, in fjirde maatregels" ensafuorthinne,

Och, wy moatte ús Data Science-teams net optimalisearje om de produktiviteit te ferbetterjen. Jo dogge dit lykwols as jo begripe wat jo produsearje: pins of wat oars, en gewoan stribje om effisjinsje te fergrutsjen. It doel fan assemblagelinen is om in taak te foltôgjen. Wy witte krekt wat wy wolle - pins (lykas yn Smith syn foarbyld), mar elts produkt of tsjinst kin neamd wurde wêryn de easken folslein beskriuwe alle aspekten fan it produkt en syn gedrach. De rol fan meiwurkers is om sa effisjint mooglik oan dizze easken te foldwaan.

Mar it doel fan Data Science is net om taken te foltôgjen. It doel is leaver om sterke nije saaklike kânsen te ferkennen en te ûntwikkeljen. Algoritmyske produkten en tsjinsten lykas oanbefellingssystemen, klantinteraksjes, klassifikaasje fan stylfoarkarren, maat, kleanûntwerp, logistykoptimalisaasje, seizoensûntstekking en folle mear kinne net foarôf ûntwikkele wurde. Se moatte wurde bestudearre. D'r binne gjin blauprinten om te replikearjen, dit binne nije mooglikheden mei ynherinte ûnwissichheid. Koëffisjinten, modellen, modeltypen, hyperparameters, alle nedige eleminten moatte wurde leard troch eksperimintearjen, probearjen en flater, en werhelling. Mei pinnen wurde training en ûntwerp dien foarôfgeand oan produksje. Mei Data Science learje jo lykas jo dogge, net earder.

Yn in pinfabryk, as training foar it earst komt, ferwachtsje noch wolle wy dat arbeiders ymprovisearje oer elke funksje fan it produkt oars as de produksje-effisjinsje te ferbetterjen. Spesjalisearjende taken makket sin, om't it liedt ta proses-effisjinsje en produksjekonsistinsje (sûnder feroaringen oan it einprodukt).

Mar as it produkt noch ûntwikkelet en it doel training is, ynterfereart spesjalisaasje ús doelen yn 'e folgjende gefallen:

1. It ferheget koördinaasjekosten.

Dat is, dy kosten dy't sammele yn 'e tiid bestege oan kommunikaasje, besprekken, rjochtfeardigjen en prioritearjen fan it wurk dat dien wurde moat. Dizze kosten skaalje super-lineêr mei it oantal belutsen minsken. (Lykas J. Richard Hackman ús learde, groeit it oantal relaasjes r fergelykber mei de funksje fan it oantal termen n neffens dizze fergeliking: r = (n^2-n)/2. En elke relaasje ferriedt wat bedrach fan 'e kostenferhâlding.) Wannear't gegevenswittenskippers wurde organisearre troch funksje, yn elke poadium, mei elke feroaring, elke oerdracht, ensfh., binne in protte spesjalisten nedich, wat de koördinaasjekosten ferheget. Bygelyks, statistyske modelers dy't wolle eksperimintearje mei nije funksjes sille moatte koördinearje mei gegevens yngenieurs dy't tafoegje oan de datasets eltse kear se wolle besykje wat nijs. Likemin betsjuttet elk nij oplaat model dat de modelûntwikkelder ien nedich hat om mei te koördinearjen om it yn produksje te setten. Koördinaasjekosten fungearje as in priis foar iteraasje, wêrtroch't se dreger en djoerder binne en wierskynliker meitsje dat de stúdzje ferlitten wurdt. Dit kin ynterferearje mei learen.

2. It makket wachttiden dreech.

Noch dreger as de koördinaasjekosten is de tiid dy't ferlern giet tusken wurkskiften. Wylst koördinaasjekosten normaal wurde mjitten yn oeren - de tiid dy't it nimt om gearkomsten, diskusjes, ûntwerpbeoardielingen te fieren - wachttiid wurdt normaal mjitten yn dagen, wiken of sels moannen! Skema's fan funksjonele spesjalisten binne lestich te balansearjen, om't elke spesjalist moat wurde ferdield oer meardere projekten. In gearkomste fan ien oere om feroaringen te besprekken kin wiken duorje om de workflow te glêdjen. En nei it oerienkommen fan 'e wizigingen, is it needsaaklik om it eigentlike wurk sels te planjen yn' e kontekst fan in protte oare projekten dy't de wurktiid fan spesjalisten besette. Wurk mei koadefixes of ûndersyk dat mar in pear oeren of dagen duorret om te foltôgjen kin folle langer duorje foardat boarnen beskikber wurde. Oant dan wurde iteraasje en learen ophâlden.

3. It beheint de kontekst.

De wurkferdieling kin learen keunstmjittich beheine troch minsken te beleanjen foar it bliuwen yn har spesjaliteit. Bygelyks, in ûndersykswittenskipper dy't binnen it berik fan syn funksjonaliteit moat bliuwe, sil syn enerzjy rjochtsje op it eksperimintearjen mei ferskate soarten algoritmen: regression, neurale netwurken, willekeurige bosk, ensfh. Fansels kinne goede algoritme-keuzes liede ta inkrementele ferbetteringen, mar d'r is typysk folle mear te heljen fan oare aktiviteiten, lykas it yntegrearjen fan nije gegevensboarnen. Likemin sil it helpe om in model te ûntwikkeljen dat elk bytsje ferklearjende krêft ynherinte yn 'e gegevens eksploitearret. De krêft kin lykwols lizze yn it feroarjen fan de objektive funksje of it ûntspannen fan bepaalde beheiningen. Dit is lestich te sjen of te dwaan as har wurk beheind is. Om't in technyske wittenskipper spesjalisearre is yn it optimalisearjen fan algoritmen, is hy folle minder kâns om wat oars te dwaan, sels as it wichtige foardielen bringt.

Om de tekens te neamen dy't ferskine as gegevenswittenskipteams fungearje as pinfabriken (bygelyks yn ienfâldige statusupdates): "wachtsje op feroaringen fan gegevenspipeline" en "wachtsje op ML Eng-boarnen" binne gewoane blokkers. Ik leau lykwols dat de gefaarlikere ynfloed is wat jo net fernimme, om't jo gjin spyt kinne hawwe fan wat jo net al witte. Flaterleaze útfiering en de selsbefrediging dy't krigen wurdt troch it berikken fan proses-effisjinsje kinne de wierheid maskerje dat organisaasjes har net bewust binne fan 'e learfoardielen dy't se misse.

De oplossing foar dit probleem is fansels om de fabrykspinmetoade kwyt te reitsjen. Om learen en iteraasje oan te moedigjen, moatte rollen fan gegevenswittenskippers generyk wêze, mar mei brede ferantwurdlikheden ûnôfhinklik fan 'e technyske funksje, dat wol sizze gegevenswittenskippers organisearje sadat se binne optimalisearre foar learen. Dit betsjut it ynhieren fan "full stack spesjalisten" - algemiene spesjalisten dy't in ferskaat oan funksjes kinne útfiere, fan konsept oant modellering, ymplemintaasje oant mjitting. It is wichtich om te merken dat ik net suggerearje dat it ynhieren fan full-stack talint it oantal meiwurkers moat ferminderje. Leaver, ik sil gewoan oannimme dat as se oars organisearre binne, har stimulâns better ôfstimd binne mei de lear- en prestaasjesfoardielen. Litte wy bygelyks sizze dat jo in team hawwe fan trije minsken mei trije saaklike feardichheden. Yn in pinfabryk sil elke technikus in tredde fan syn tiid besteegje oan elke taaktaak, om't gjinien oars syn wurk kin dwaan. Yn in folsleine stack is elke generalist folslein wijd oan it heule bedriuwsproses, skaalfergrutting en training.

Mei minder minsken dy't de produksjesyklus stypje, wurdt koördinaasje fermindere. De generalist beweecht floeiend tusken funksjes, wreidet de gegevenspipeline út om mear gegevens ta te foegjen, probearret nije funksjes yn modellen, ynset nije ferzjes nei produksje foar kausale mjittingen, en werhelje stappen sa gau as nije ideeën opkomme. Fansels, de stasjon wagon fiert ferskate funksjes sequentially en net parallel. It is ommers mar ien persoan. It foltôgjen fan in taak nimt lykwols gewoanlik mar in fraksje fan 'e tiid dy't nedich is om tagong te krijen ta in oare spesjalisearre boarne. Dus, de iteraasjetiid nimt ôf.

Us generalist is miskien net sa betûft as in spesjalist yn in bepaalde baanfunksje, mar wy stribje net nei funksjonele perfeksje of lytse ynkrementele ferbetteringen. Wy stribje leaver te learen en te ûntdekken mear en mear profesjonele útdagings mei stadige ynfloed. Mei in holistyske kontekst foar in folsleine oplossing sjocht er kânsen dy't in spesjalist misse soe. Hy hat mear ideeën en mear mooglikheden. Hy mislearret ek. De kosten fan mislearring binne lykwols leech en de foardielen fan learen binne heech. Dizze asymmetry befoarderet rappe iteraasje en beleanne learen.

It is wichtich om te notearjen dat de hoemannichte autonomy en ferskaat oan feardigens oanbean oan folsleine-stapelwittenskippers foar in grut part ôfhinklik is fan 'e robústiteit fan it gegevensplatfoarm wêrop se wurkje. In goed ûntworpen gegevensplatfoarm abstrahearret gegevenswittenskippers út 'e kompleksiteiten fan kontenerisaasje, ferdielde ferwurking, automatyske failover, en oare avansearre kompjûterkonsepten. Neist abstraksje kin in robúste dataplatfoarm naadleaze ferbining leverje oan eksperimintele ynfrastruktuer, automatisearje tafersjoch en warskôging, ynskeakelje automatyske skaalfergrutting en fisualisaasje fan algoritmyske resultaten en debuggen. Dizze komponinten binne ûntworpen en boud troch de yngenieurs fan it gegevensplatfoarm, wat betsjuttet dat se net wurde trochjûn fan 'e gegevenswittenskipper nei it ûntwikkelteam foar gegevensplatfoarm. It is de spesjalist fan Data Science dy't ferantwurdlik is foar alle koade dy't brûkt wurdt om it platfoarm út te fieren.

Ik wie ek eartiids ynteressearre yn 'e funksjonele ferdieling fan arbeid mei proses-effisjinsje, mar troch probearjen en flater (der is gjin bettere manier om te learen), ûntduts ik dat typyske rollen learen en ynnovaasje better fasilitearje en de juste metriken leverje: ûntdekken en bouwe folle mear saaklike kânsen dan spesjalisearre oanpak. (In effektiver manier om te learen oer dizze oanpak fan organisearjen dan de proef en flater dy't ik trochgie, is it boek fan Amy Edmondson te lêzen Team Collaboration: How Organisations Learn, Innovate, and Compete in the Knowledge Economy).

D'r binne wat wichtige oannames dy't dizze oanpak kinne meitsje foar it organisearjen mear of minder betrouber yn guon bedriuwen. It iteraasjeproses ferleget de kosten fan probearjen en flater. As de kosten fan flater heech binne, wolle jo se miskien ferminderje (mar dit wurdt net oanrikkemandearre foar medyske tapassingen of fabrikaazje). Derneist, as jo te krijen hawwe mei petabytes of exabytes oan gegevens, kin spesjalisaasje yn data-engineering ferplicht wêze. Likemin, as it behâld fan online saaklike mooglikheden en har beskikberens wichtiger is dan it ferbetterjen, kin funksjonele treflikens learen oerwinne. Uteinlik fertrout it folsleine stackmodel op 'e mieningen fan minsken dy't derfan witte. It binne gjin ienhoarnen; kinne jo fine se of tariede se sels. Se binne lykwols yn hege fraach en it oanlûken en behâlden fan se sil kompetitive kompensaasje, sterke bedriuwswearden en útdaagjend wurk fereaskje. Soargje derfoar dat jo bedriuwskultuer dit kin stypje.

Sels mei al dat sein, Ik leau dat de folsleine stack model jout de bêste start betingsten. Begjin mei harren, en dan bewust nei in funksjonele ferdieling fan arbeid allinnich as perfoarst nedich.

D'r binne oare neidielen fan funksjonele spesjalisaasje. Dit kin liede ta ferlies fan ferantwurdlikens en passiviteit fan 'e kant fan' e arbeiders. Smith sels hat krityk op de wurkferdieling, en suggerearret dat dy liedt ta swolling fan talint, d.w.s. arbeiders wurde ûnwittend en ynlutsen as harren rollen binne beheind ta in pear repetitive taken. Wylst spesjalisaasje proses-effisjinsje kin leverje, is it minder wierskynlik arbeiders te ynspirearjen.

Op har beurt leverje alsidige rollen alle dingen dy't wurktefredenens driuwe: autonomy, behearsking en doel. Autonomy is dat se fan neat ôfhingje om sukses te berikken. Mastery leit yn sterke kompetitive foardielen. En it gefoel fan doel leit yn 'e kâns om ynfloed te hawwen op it bedriuw dat se meitsje. As wy minsken entûsjast meitsje kinne oer har wurk en in grutte ynfloed hawwe op it bedriuw, dan falt al it oare op syn plak.

Boarne: www.habr.com

Add a comment