Zergatik Data Science taldeek behar dituzte generalistak, ez espezialistak

Zergatik Data Science taldeek behar dituzte generalistak, ez espezialistak
HIROSHI WATANABE/GETTY IMAGES

The Wealth of Nations-en, Adam Smith-ek lanaren banaketa produktibitatea handitzeko iturri nagusia nola bihurtzen den erakusten du. Adibide bat pin fabrika baten muntaketa katea da: «Langile batek alanbreari tira egiten dio, beste batek zuzentzen du, hirugarren batek mozten du, laugarren batek muturra zorrozten du, bosgarren batek beste muturra xehatzen du buruari egokitzeko». Funtzio zehatzetara bideratutako espezializazioari esker, langile bakoitza bere zeregin estuan oso kualifikatua den espezialista bihurtzen da, eta horrek prozesuen eraginkortasuna areagotzen du. Langile bakoitzeko irteera askotan handitzen da, eta fabrika eraginkorragoa bihurtzen da pinak ekoizten.

Funtzionalitateen araberako lanaren banaketa hau hain errotuta dago gure buruan gaur egun ere, non azkar antolatu genituen gure taldeak horren arabera. Data Science ez da salbuespena. Negozio-gaitasun algoritmiko konplexuek lan-funtzio anitz behar dituzte, beraz, enpresek normalean espezialista-taldeak sortzen dituzte: ikertzaileak, datu-ingeniariak, ikaskuntza automatikoko ingeniariak, kausa-efektuko zientzialariak, etab. Espezialisten lana produktuen arduradunak koordinatzen du funtzioen transferentziarekin, pin fabrika baten antzera: “pertsona batek datuak jasotzen ditu, beste batek modelatzen ditu, hirugarren batek exekutatzen ditu, laugarren batek neurtzen ditu” eta abar.

Ala ere, ez ditugu gure Datu Zientzietako taldeak optimizatu behar produktibitatea hobetzeko. Hala ere, hori egiten duzu ekoizten ari zarena ulertzen duzunean: pinak edo beste zerbait, eta eraginkortasuna areagotzen ahalegintzen zara. Muntaketa-kateen helburua zeregin bat burutzea da. Badakigu zehatz-mehatz zer nahi dugun: pinak (Smith-en adibidean bezala), baina edozein produktu edo zerbitzu aipa daiteke, zeinetan eskakizunek produktuaren alderdi guztiak eta bere portaera deskribatzen dituztenak. Langileen eginkizuna baldintza hauek ahalik eta modu eraginkorrenean betetzea da.

Baina Data Scienceren helburua ez da zereginak burutzea. Aitzitik, negozio aukera berri sendoak arakatzea eta garatzea da helburua. Produktu eta zerbitzu algoritmikoak, hala nola, gomendio sistemak, bezeroen interakzioak, estilo-hobespenen sailkapena, neurriak, arropa diseinua, logistika optimizazioa, urtaroko joerak hautematea eta askoz gehiago ezin dira garatu aldez aurretik. Aztertu egin behar dira. Ez dago eredurik errepikatzeko, berezko ziurgabetasuna duten aukera berriak dira. Koefizienteak, ereduak, eredu motak, hiperparametroak, beharrezko elementu guztiak esperimentazioaren, saiakuntzaren eta errepikapenaren bidez ikasi behar dira. Pinekin, prestakuntza eta diseinua ekoizpenaren aurretik egiten dira. Data Science-rekin, egiten duzun bezala ikasten duzu, ez lehen.

Pin-fabrika batean, prestakuntza lehenik eta behin, ez dugu ez espero eta ez nahi langileek produktuaren ezaugarriren bat inprobisatzea ekoizpenaren eraginkortasuna hobetzea baino. Zeregin espezializatzeak zentzua du, prozesuen eraginkortasuna eta ekoizpenaren koherentzia (azken produktuan aldaketarik gabe) ekartzen dituelako.

Baina produktua oraindik garatzen ari denean eta helburua prestakuntza denean, espezializazioak gure helburuak oztopatzen ditu kasu hauetan:

1. Koordinazio kostuak handitzen ditu.

Hau da, egin beharreko lana komunikatzen, eztabaidatzen, justifikatzen eta lehenesten emandako denboran pilatzen diren kostu horiek. Kostu hauek modu superlinealean igotzen dira parte hartzen duten pertsonen kopuruarekin. (J. Richard Hackmanek irakatsi zigun bezala, r erlazio kopurua ekuazio honen arabera n termino kopuruaren funtzioaren antzera hazten da: r = (n^2-n)/2. Eta erlazio bakoitzak agerian uzten du kostu erlazioa.) Datuen zientzialariak funtzioen arabera antolatzen direnean, fase bakoitzean, aldaketa bakoitzarekin, eskualdaketa bakoitzean, etab., espezialista asko behar dira, eta horrek koordinazio kostuak areagotzen ditu. Esaterako, ezaugarri berriekin esperimentatu nahi duten estatistika-ereduzaleek datu-ingeniariekin koordinatu beharko dute, datu-multzoei gehitzen zaizkien zerbait berria probatu nahi duten bakoitzean. Era berean, trebatutako modelo berri bakoitzak esan nahi du ereduaren garatzaileak norbaitekin koordinatuko duen behar duela produkzioan jartzeko. Koordinazio-kostuak errepikapenaren prezio gisa jokatzen dute, zailagoak eta garestiagoak eta azterketa bertan behera uztea eragin dezaketenak. Horrek ikaskuntza oztopatu dezake.

2. Zaildu egiten ditu itxaronaldiak.

Koordinazio kostuak baino are ikaragarriagoa da lan txanden artean galdutako denbora. Koordinazio-kostuak normalean ordutan neurtzen diren arren - bilerak, eztabaidak, diseinuaren berrikuspenak egiteko behar den denbora - itxaronaldia egun, aste edo hilabetetan neurtzen da normalean! Espezialisten ordutegiak zailak dira orekatzeko, espezialista bakoitza hainbat proiektutan banatu behar delako. Aldaketak eztabaidatzeko ordubeteko bilera batek asteak behar izan ditzake lan-fluxua leuntzeko. Eta aldaketak adostu ondoren, beharrezkoa da benetako lana bera planifikatzea espezialisten lan-denbora hartzen duten beste hainbat proiekturen testuinguruan. Kode konponketak edo ordu batzuk edo egun batzuk besterik behar ez dituzten ikerlanak askoz gehiago behar izan ditzake baliabideak erabilgarri egon arte. Ordura arte, errepikapena eta ikaskuntza etenda daude.

3. Testuingurua murrizten du.

Lanaren banaketak ikaskuntza artifizialki mugatu dezake, jendea bere espezialitatean mantentzea sarituz. Esaterako, bere funtzionalitatearen esparruan egon behar duen ikerlari batek bere energia algoritmo mota ezberdinekin esperimentatzera bideratuko du: erregresioa, neurona-sareak, ausazko basoa, etab. Jakina, algoritmo-aukera onek hobekuntza gehigarriak ekar ditzakete, baina normalean beste jarduera batzuetatik askoz gehiago irabazten da, hala nola datu-iturri berriak integratzea. Era berean, datuek berezko duten azalpen ahalmen guztia ustiatzen duen eredu bat garatzen lagunduko du. Dena den, bere indarra funtzio objektiboa aldatzean edo muga batzuk erlaxatzean egon daiteke. Hori ikustea edo egitea zaila da bere lana mugatua denean. Zientzialari tekniko bat algoritmoak optimizatzen espezializatuta dagoenez, askoz ere gutxiago da beste ezer egiteko, onura handiak ekartzen baditu ere.

Datu-zientzietako taldeek pin fabrika gisa jarduten dutenean agertzen diren seinaleak izendatzeko (adibidez, egoera-eguneratze soiletan): "datuen kanalaren aldaketen zain" eta "ML Eng baliabideen zain" blokeatzaile arruntak dira. Hala ere, uste dut eragin arriskutsuena nabaritzen ez duzuna dela, ezin baita damutu lehendik ezagutzen ez duzunaz. Akatsik gabeko exekuzioak eta prozesuen eraginkortasuna lortzetik lortutako lasaitasunak ezkuta dezakete erakundeek ez dakitela galtzen ari diren prestakuntza-onuren berri.

Arazo honen konponbidea, noski, fabrikako pin metodoa kentzea da. Ikaskuntza eta iterazioa bultzatzeko, data scientist eginkizunak generikoak izan behar dira, baina funtzio teknikotik independenteak diren erantzukizun zabalekin, hau da, data scientists antolatzea, ikasteko optimizatuta egon daitezen. Horrek esan nahi du "full stack espezialistak" kontratatzea: hainbat funtzio bete ditzaketen espezialista orokorrak, kontzeptutik hasi eta modelatzeraino, inplementatzeraino neurtzera. Garrantzitsua da kontuan izan ez dudala iradokitzen full-stack talentua kontratatzeak langile kopurua murriztu behar duenik. Aitzitik, beste modu batera antolatzen direnean, haien pizgarriak ikaskuntzaren eta errendimenduaren onurekin hobeto egokitzen direla suposatuko dut. Adibidez, demagun hiru pertsonez osatutako talde bat duzula hiru negozio-gaitasunekin. Pin-fabrika batean, teknikari bakoitzak bere denboraren herena emango dio lan-zeregin bakoitzari, beste inork ezin baitu bere lana egin. Pila oso batean, generalista bakoitza negozio prozesu osora, eskalatze eta prestakuntzara guztiz dedikatzen da.

Ekoizpen-zikloa onartzen duten jende gutxiagorekin, koordinazioa murrizten da. Generalista fluido mugitzen da funtzioen artean, datu-hodiak zabalduz datu gehiago gehitzeko, modeloetan eginbide berriak probatzen ditu, bertsio berriak ekoizten ditu neurketa kausalak egiteko eta urratsak ideia berriak sortzen diren bezain azkar errepikatzen ditu. Noski, bagoiak funtzio desberdinak betetzen ditu sekuentzialki eta ez paraleloan. Azken finean, pertsona bakarra da. Hala ere, zeregin bat betetzeak beste baliabide espezializatu batean sartzeko behar den denboraren zati bat besterik ez du behar izaten. Beraz, iterazio-denbora gutxitzen da.

Baliteke gure generalista ez izatea lan-funtzio jakin batean espezialista bezain trebea, baina ez gara perfekzio funtzionala edo hobekuntza txikiak lortzeko ahalegintzen. Baizik eta, pixkanaka-pixkanaka gero eta erronka profesional gehiago ikasten eta deskubritzen ahalegintzen gara. Konponbide osoa lortzeko testuinguru holistiko batekin, espezialista batek galduko lituzkeen aukerak ikusten ditu. Ideia gehiago eta aukera gehiago ditu. Berak ere huts egiten du. Hala ere, porrotaren kostua txikia da eta ikaskuntzaren onurak handiak dira. Asimetria honek iterazio azkarra sustatzen du eta ikaskuntza saritzen du.

Garrantzitsua da pilaketa osoko zientzialariei eskaintzen zaien autonomia eta trebetasun-aniztasuna neurri handi batean lan egiteko datu-plataformaren sendotasunaren menpe dagoela. Ondo diseinatutako datu-plataforma batek datu-zientzilariak edukiontzien, prozesamendu banatuaren, hutsegite automatikoaren eta beste konputazio-kontzeptu aurreratuen konplexutasunetatik abstraitzen ditu. Abstrakzioaz gain, datu-plataforma sendo batek azpiegitura esperimentaletarako konexiorik gabeko konexioa eskain dezake, monitorizazioa eta alertak automatizatu, eskalatze automatikoa eta emaitza algoritmikoen bistaratzea eta arazketa ahalbidetu. Osagai hauek datu-plataformako ingeniariek diseinatu eta eraiki dituzte, hau da, ez dira datu-zientzialaritik datu-plataformaren garapen-taldera pasatzen. Data Science espezialista da plataforma exekutatzeko erabilitako kode guztien arduraduna.

Niri ere garai batean interesatzen zitzaidan lanaren banaketa funtzionala prozesuen eraginkortasuna erabiliz, baina saiakeraren eta akatsen bidez (ez dago ikasteko modu hoberik), aurkitu nuen rol tipikoek hobeto ikaskuntza eta berrikuntza errazten dutela eta neurri egokiak ematen dituztela: deskubritzea eta ikuspegi espezializatua baino negozio aukera gehiago eraikitzea. (Antolakuntzaren ikuspegi hau ezagutzeko modu eraginkorragoa izan dudan saiakuntza eta akatsa baino Amy Edmondsonen Team Collaboration: How Organizations Learn, Innovate, and Compete in the Knowledge Economy liburua irakurtzea da).

Badira hipotesi garrantzitsu batzuk enpresa batzuetan antolatzeko planteamendu hori fidagarriagoa edo gutxiago bihur dezaketenak. Iterazio prozesuak saiakuntza eta erroreen kostua murrizten du. Errorearen kostua handia bada, baliteke horiek murriztu nahi izatea (baina ez da gomendagarria aplikazio medikoetarako edo fabrikaziorako). Gainera, datu petabyte edo exabyteekin ari bazara, baliteke datuen ingeniaritzan espezializazioa behar izatea. Era berean, lineako negozio-gaitasunak eta haien erabilgarritasuna mantentzea horiek hobetzea baino garrantzitsuagoa bada, bikaintasun funtzionalak ikaskuntzaren gainetik egon daiteke. Azkenik, full stack eredua horri buruz dakiten pertsonen iritzietan oinarritzen da. Ez dira unikornioak; aurki ditzakezu edo zuk zeuk prestatu ditzakezu. Hala ere, eskaera handia dute eta horiek erakartzeko eta atxikitzeko konpentsazio lehiakorra, balore korporatibo sendoak eta lan zaila beharko dira. Ziurtatu zure enpresaren kulturak hau onartzen duela.

Hori guztia esanda ere, uste dut full stack ereduak hasierako baldintza onenak eskaintzen dituela. Haiekin hasi, eta gero kontzienteki lanaren banaketa funtzional batera joan behar den momentuan bakarrik.

Espezializazio funtzionalaren beste desabantaila batzuk daude. Horrek langileen erantzukizuna eta pasibotasuna galtzea ekar dezake. Smithek berak lanaren banaketa kritikatzen du, talentua moteltzea dakarrela iradokiz, hau da. langileak ezjakin bilakatzen dira eta erretiratu egiten dira, beren rolak errepikapeneko zeregin batzuetara mugatzen baitira. Espezializazioak prozesuen eraginkortasuna eman dezakeen arren, langileak inspiratzeko aukera gutxiago du.

Aldiz, rol polifazetikoek lanaren gogobetetasuna bultzatzen duten gauza guztiak eskaintzen dituzte: autonomia, maisutasuna eta helburua. Autonomia da ez dutela ezerren menpe izaten arrakasta lortzeko. Maisutasuna lehiakortasun abantaila sendoetan datza. Eta helburuaren zentzua sortzen duten negozioan eragina izateko aukeran datza. Jendea bere lanarekin hunkitzea eta enpresan eragin handia izatea lortzen badugu, gainontzeko guztia tokian jarriko da.

Iturria: www.habr.com

Gehitu iruzkin berria