Waarom Data Science-spanne generaliste benodig, nie spesialiste nie

Waarom Data Science-spanne generaliste benodig, nie spesialiste nie
HIROSHI WATANABE/GETTY IMAGES

In The Wealth of Nations wys Adam Smith hoe die verdeling van arbeid die hoofbron van verhoogde produktiwiteit word. 'n Voorbeeld is die monteerlyn van 'n penfabriek: "Een werker trek die draad, 'n ander maak dit reguit, 'n derde sny dit, 'n vierde maak die punt skerp, 'n vyfde slyp die ander kant om die kop te pas." Danksy spesialisasie gefokus op spesifieke funksies, word elke werknemer 'n hoogs gekwalifiseerde spesialis in sy eng taak, wat lei tot verhoogde prosesdoeltreffendheid. Uitset per werker neem baie keer toe, en die fabriek word meer doeltreffend in die vervaardiging van penne.

Hierdie verdeling van arbeid volgens funksionaliteit is selfs vandag so in ons gedagtes ingeburger dat ons vinnig ons spanne daarvolgens georganiseer het. Data Science is geen uitsondering nie. Komplekse algoritmiese besigheidsvermoëns vereis veelvuldige werkfunksies, so maatskappye skep tipies spanne spesialiste: navorsers, data-ingenieurs, masjienleer-ingenieurs, oorsaak-en-gevolg wetenskaplikes, ensovoorts. Die werk van die spesialiste word deur die produkbestuurder gekoördineer met die oordrag van funksies op 'n manier wat soos 'n penfabriek lyk: "een persoon ontvang die data, 'n ander modelleer dit, 'n derde voer dit uit, 'n vierde meet" ensovoorts,

Helaas, ons moet nie ons Data Science-spanne optimaliseer om produktiwiteit te verbeter nie. Jy doen dit egter wanneer jy verstaan ​​wat jy produseer: penne of iets anders, en bloot daarna streef om doeltreffendheid te verhoog. Die doel van monteerlyne is om 'n taak te voltooi. Ons weet presies wat ons wil hê – penne (soos in Smith se voorbeeld), maar enige produk of diens kan genoem word waarin die vereistes alle aspekte van die produk en sy gedrag volledig beskryf. Die rol van werknemers is om so doeltreffend moontlik aan hierdie vereistes te voldoen.

Maar die doel van Data Science is nie om take te voltooi nie. Die doel is eerder om sterk nuwe sakegeleenthede te verken en te ontwikkel. Algoritmiese produkte en dienste soos aanbevelingstelsels, kliëntinteraksies, klassifikasie van stylvoorkeure, grootte, klereontwerp, logistieke optimalisering, seisoenale neigingsbespeuring en nog baie meer kan nie vooraf ontwikkel word nie. Hulle moet bestudeer word. Daar is geen bloudrukke om te herhaal nie, dit is nuwe moontlikhede met inherente onsekerheid. Koëffisiënte, modelle, modeltipes, hiperparameters, alle nodige elemente moet deur eksperimentering, proef en fout en herhaling aangeleer word. Met penne word opleiding en ontwerp voor produksie gedoen. Met Data Science leer jy soos jy doen, nie voorheen nie.

In 'n speldefabriek, wanneer opleiding eerste kom, verwag of wil ons nie hê dat werkers oor enige kenmerk van die produk moet improviseer behalwe om produksiedoeltreffendheid te verbeter nie. Spesialiseringstake maak sin omdat dit lei tot prosesdoeltreffendheid en produksiekonsekwentheid (sonder veranderinge aan die finale produk).

Maar wanneer die produk nog besig is om te ontwikkel en die doelwit opleiding is, belemmer spesialisasie ons doelwitte in die volgende gevalle:

1. Dit verhoog koördineringskoste.

Dit wil sê daardie koste wat ophoop gedurende die tyd wat spandeer word om die werk wat gedoen moet word te kommunikeer, te bespreek, te regverdig en te prioritiseer. Hierdie koste skaal super-lineêr met die aantal mense wat betrokke is. (Soos J. Richard Hackman ons geleer het, groei die aantal verwantskappe r soortgelyk aan die funksie van die aantal terme n volgens hierdie vergelyking: r = (n^2-n)/2. En elke verwantskap openbaar 'n mate van die koste verhouding.) Wanneer datawetenskaplikes volgens funksie georganiseer word, in elke stadium, met elke verandering, elke oorhandiging, ens., word baie spesialiste benodig, wat koördineringskoste verhoog. Byvoorbeeld, statistiese modelleerders wat met nuwe kenmerke wil eksperimenteer, sal moet koördineer met data-ingenieurs wat by die datastelle voeg elke keer as hulle iets nuuts wil probeer. Net so beteken elke nuwe model wat opgelei is dat die modelontwikkelaar iemand nodig het om mee te koördineer om dit in produksie te plaas. Koördinasiekoste dien as 'n prys vir herhaling, wat dit moeiliker en duurder maak en meer geneig sal maak dat die studie laat vaar word. Dit kan inmeng met leer.

2. Dit maak wagtye moeilik.

Selfs meer skrikwekkend as koördineringskoste is die tyd wat verlore gaan tussen werkskofte. Terwyl koördinasiekoste gewoonlik in ure gemeet word – die tyd wat dit neem om vergaderings, besprekings, ontwerpresensies te hou – word wagtyd gewoonlik in dae, weke of selfs maande gemeet! Funksionele spesialiste se skedules is moeilik om te balanseer omdat elke spesialis oor verskeie projekte versprei moet word. 'n Vergadering van een uur om veranderinge te bespreek, kan weke neem om die werkvloei glad te maak. En nadat ooreengekom is oor die veranderinge, is dit nodig om die werklike werk self te beplan in die konteks van baie ander projekte wat die werktyd van spesialiste beslaan. Werk wat koderegstellings of navorsing behels wat slegs 'n paar uur of dae neem om te voltooi, kan baie langer neem voordat hulpbronne beskikbaar word. Tot dan word iterasie en leer opgeskort.

3. Dit vernou die konteks.

Die verdeling van arbeid kan leer kunsmatig beperk deur mense te beloon omdat hulle in hul spesialiteit bly. Byvoorbeeld, 'n navorsingswetenskaplike wat binne die bestek van sy funksionaliteit moet bly, sal sy energie fokus op eksperimentering met verskillende tipes algoritmes: regressie, neurale netwerke, ewekansige woud, ensovoorts. Natuurlik kan goeie algoritme-keuses lei tot inkrementele verbeterings, maar daar is tipies baie meer te kry uit ander aktiwiteite, soos die integrasie van nuwe databronne. Net so sal dit help om 'n model te ontwikkel wat elke stukkie verduidelikende krag inherent aan die data ontgin. Die krag daarvan kan egter daarin lê om die objektiewe funksie te verander of sekere beperkings te verslap. Dit is moeilik om te sien of te doen wanneer haar werk beperk is. Omdat 'n tegniese wetenskaplike spesialiseer in die optimalisering van algoritmes, is hy baie minder geneig om enigiets anders te doen, selfs al bring dit aansienlike voordele.

Om die tekens te noem wat verskyn wanneer datawetenskapspanne as penfabrieke optree (byvoorbeeld in eenvoudige statusopdaterings): "wag vir datapyplynveranderinge" en "wag vir ML Eng-hulpbronne" is algemene blokkeerders. Ek glo egter die gevaarliker invloed is wat jy nie raaksien nie, want jy kan nie spyt wees oor wat jy nie reeds weet nie. Foutlose uitvoering en die selfvoldaanheid wat verkry word uit die bereiking van prosesdoeltreffendheid kan die waarheid masker dat organisasies onbewus is van die leervoordele wat hulle mis.

Die oplossing vir hierdie probleem is natuurlik om ontslae te raak van die fabriekspenmetode. Om leer en iterasie aan te moedig, moet die rolle van datawetenskaplikes generies wees, maar met breë verantwoordelikhede onafhanklik van die tegniese funksie, dit wil sê datawetenskaplikes organiseer sodat hulle geoptimaliseer is vir leer. Dit beteken die aanstel van "full-stack spesialiste" - algemene spesialiste wat 'n verskeidenheid funksies kan verrig, van konsep tot modellering, implementering tot meting. Dit is belangrik om daarop te let dat ek nie voorstel dat die aanstelling van volstapeltalent die aantal werknemers moet verminder nie. Ek sal eerder eenvoudig aanvaar dat wanneer hulle anders georganiseer is, hul aansporings beter in lyn is met die leer- en prestasievoordele. Byvoorbeeld, kom ons sê jy het 'n span van drie mense met drie besigheidsvaardighede. In 'n speldefabriek sal elke tegnikus 'n derde van sy tyd aan elke werkstaak wy, aangesien niemand anders sy werk kan doen nie. In 'n volledige stapel, is elke algemene persoon ten volle toegewy aan die hele besigheidsproses, opskaling en opleiding.

Met minder mense wat die produksiesiklus ondersteun, word koördinasie verminder. Die generalis beweeg vloeiend tussen kenmerke, brei die datapyplyn uit om meer data by te voeg, probeer nuwe kenmerke in modelle, ontplooi nuwe weergawes na produksie vir oorsaaklike metings, en herhaal stappe so vinnig as wat nuwe idees opduik. Natuurlik verrig die stasiewa verskillende funksies opeenvolgend en nie parallel nie. Dit is immers net een persoon. Die voltooiing van 'n taak neem gewoonlik slegs 'n fraksie van die tyd wat nodig is om toegang tot 'n ander gespesialiseerde hulpbron te verkry. Dus, die iterasietyd neem af.

Ons generaal is dalk nie so vaardig soos 'n spesialis in 'n bepaalde werksfunksie nie, maar ons streef nie na funksionele perfeksie of klein inkrementele verbeterings nie. Ons streef eerder daarna om te leer en meer en meer professionele uitdagings met geleidelike impak te ontdek. Met 'n holistiese konteks vir 'n volledige oplossing, sien hy geleenthede wat 'n spesialis sal misloop. Hy het meer idees en meer moontlikhede. Hy faal ook. Die koste van mislukking is egter laag en die voordele van leer is hoog. Hierdie asimmetrie bevorder vinnige iterasie en beloon leer.

Dit is belangrik om daarop te let dat die mate van outonomie en vaardigheidsdiversiteit wat aan volle-stapel-wetenskaplikes verleen word, grootliks afhang van die robuustheid van die dataplatform waarop hulle kan werk. 'n Goed ontwerpte dataplatform onttrek datawetenskaplikes uit die kompleksiteite van houerisering, verspreide verwerking, outomatiese failover en ander gevorderde rekenaarkonsepte. Benewens abstraksie, kan 'n robuuste dataplatform naatlose verbinding met eksperimentele infrastruktuur verskaf, monitering en waarskuwing outomatiseer, outomatiese skaal en visualisering van algoritmiese resultate en ontfouting moontlik maak. Hierdie komponente word ontwerp en gebou deur die dataplatformingenieurs, wat beteken dat hulle nie van die datawetenskaplike na die dataplatformontwikkelingspan oorgedra word nie. Dit is die Data Science-spesialis wat verantwoordelik is vir al die kode wat gebruik word om die platform te bestuur.

Ek was ook eens geïnteresseerd in die funksionele verdeling van arbeid deur prosesdoeltreffendheid te gebruik, maar deur probeer en fout (daar is geen beter manier om te leer nie), het ek ontdek dat tipiese rolle leer en innovasie beter fasiliteer en die regte maatstawwe verskaf: ontdek en bou baie meer besigheidsgeleenthede as gespesialiseerde benadering. ('n Meer effektiewe manier om te leer oor hierdie benadering tot organisering as die beproewing en fout waardeur ek gegaan het, is om Amy Edmondson se boek Team Collaboration: How Organisations Learn, Innovate, and Compete in the Knowledge Economy te lees).

Daar is 'n paar belangrike aannames wat hierdie benadering tot organisering in sommige maatskappye min of meer betroubaar kan maak. Die herhalingsproses verminder die koste van trial and error. As die koste van foute hoog is, wil jy dit dalk verminder (maar dit word nie aanbeveel vir mediese toepassings of vervaardiging nie). Daarbenewens, as jy met petagrepe of exagrepe van data te doen het, kan spesialisasie in data-ingenieurswese vereis word. Net so, as die handhawing van aanlyn besigheidsvermoëns en die beskikbaarheid daarvan belangriker is as om dit te verbeter, kan funksionele uitnemendheid leer troef. Laastens maak die volstapelmodel staat op die menings van mense wat daarvan weet. Hulle is nie eenhorings nie; jy kan hulle vind of self voorberei. Daar is egter groot aanvraag na hulle en om hulle te lok en te behou, sal mededingende vergoeding, sterk korporatiewe waardes en uitdagende werk vereis. Maak seker jou maatskappykultuur kan dit ondersteun.

Selfs met alles wat gesê is, glo ek dat die volstapelmodel die beste begintoestande bied. Begin met hulle, en beweeg dan bewustelik na 'n funksionele arbeidsverdeling net wanneer dit absoluut noodsaaklik is.

Daar is ander nadele van funksionele spesialisasie. Dit kan lei tot verlies van verantwoordelikheid en passiwiteit aan die kant van werkers. Smith self kritiseer die verdeling van arbeid en suggereer dat dit lei tot afstomping van talent, m.a.w. werkers raak onkundig en teruggetrokke aangesien hul rolle beperk is tot 'n paar herhalende take. Alhoewel spesialisasie prosesdoeltreffendheid kan verskaf, is dit minder geneig om werkers te inspireer.

Op hul beurt verskaf veelsydige rolle al die dinge wat werksbevrediging dryf: outonomie, bemeestering en doelgerigtheid. Outonomie is dat hulle van niks afhanklik is om sukses te behaal nie. Bemeestering lê in sterk mededingende voordele. En die sin van doelgerigtheid lê in die geleentheid om 'n impak te hê op die besigheid wat hulle skep. As ons mense opgewonde kan maak oor hul werk en 'n groot impak op die maatskappy kan hê, dan sal alles anders in plek val.

Bron: will.com

Voeg 'n opmerking