Pse ekipet e Shkencës së të Dhënave kanë nevojë për gjeneralistë, jo specialistë

Pse ekipet e Shkencës së të Dhënave kanë nevojë për gjeneralistë, jo specialistë
HIROSHI WATANABE/GETTY IMAGES

Në Pasuria e Kombeve, Adam Smith tregon se si ndarja e punës bëhet burimi kryesor i rritjes së produktivitetit. Një shembull është linja e montimit të një fabrike kunjash: "Një punëtor tërheq telin, një tjetër e drejton atë, një i tretë e pret, një i katërti mpreh skajin, i pesti bluan skajin tjetër që t'i përshtatet kokës." Falë specializimit të fokusuar në funksione specifike, çdo punonjës bëhet një specialist shumë i kualifikuar në detyrën e tij të ngushtë, gjë që çon në rritjen e efikasitetit të procesit. Prodhimi për punëtor rritet shumë herë dhe fabrika bëhet më efikase në prodhimin e kunjave.

Kjo ndarje e punës sipas funksionalitetit është aq e rrënjosur në mendjet tona edhe sot, saqë shpejt organizuam ekipet tona në përputhje me rrethanat. Shkenca e të Dhënave nuk bën përjashtim. Aftësitë komplekse algoritmike të biznesit kërkojnë funksione të shumta pune, kështu që kompanitë zakonisht krijojnë ekipe specialistësh: studiues, inxhinierë të dhënash, inxhinierë të mësimit të makinerive, shkencëtarë shkak-pasojë, etj. Puna e specialistëve koordinohet nga menaxheri i produktit me transferimin e funksioneve në një mënyrë që i ngjan një fabrike pin: "një person merr të dhënat, një tjetër i modelon, i treti i ekzekuton, i katërti mat" etj.

Mjerisht, ne nuk duhet të optimizojmë ekipet tona të Shkencës së të Dhënave për të përmirësuar produktivitetin. Megjithatë, ju e bëni këtë kur kuptoni se çfarë po prodhoni: kunjat ose diçka tjetër, dhe thjesht përpiqeni të rrisni efikasitetin. Qëllimi i linjave të montimit është të përfundojë një detyrë. Ne e dimë saktësisht se çfarë duam - kunjat (si në shembullin e Smith), por mund të përmendet çdo produkt ose shërbim në të cilin kërkesat përshkruajnë plotësisht të gjitha aspektet e produktit dhe sjelljen e tij. Roli i punonjësve është të përmbushin këto kërkesa në mënyrë sa më efikase.

Por qëllimi i Shkencës së të Dhënave nuk është të përfundojë detyrat. Përkundrazi, qëllimi është të eksplorohen dhe zhvillohen mundësi të reja të forta biznesi. Produktet dhe shërbimet algoritmike si sistemet e rekomandimeve, ndërveprimet me klientët, klasifikimi i preferencave të stilit, madhësia, dizajni i veshjeve, optimizimi i logjistikës, zbulimi i tendencave sezonale dhe shumë më tepër nuk mund të zhvillohen paraprakisht. Ato duhet të studiohen. Nuk ka plane për t'u përsëritur, këto janë mundësi të reja me pasiguri të qenësishme. Koeficientët, modelet, llojet e modeleve, hiperparametrat, të gjithë elementët e nevojshëm duhet të mësohen përmes eksperimentimit, provës dhe gabimit dhe përsëritjes. Me kunja, trajnimi dhe dizajni bëhen para prodhimit. Me Data Science, ju mësoni siç bëni, jo më parë.

Në një fabrikë kunjash, kur trajnimi vjen i pari, ne as nuk presim dhe as nuk duam që punëtorët të improvizojnë në ndonjë veçori të produktit përveç përmirësimit të efikasitetit të prodhimit. Specializimi i detyrave ka kuptim sepse çon në efikasitetin e procesit dhe qëndrueshmërinë e prodhimit (pa ndryshime në produktin përfundimtar).

Por kur produkti është ende në zhvillim dhe qëllimi është trajnimi, specializimi ndërhyn me qëllimet tona në rastet e mëposhtme:

1. Rrit kostot e koordinimit.

Domethënë ato kosto që grumbullohen gjatë kohës së kaluar për të komunikuar, diskutuar, justifikuar dhe prioritizuar punën që duhet bërë. Këto kosto shkallëzohen në mënyrë superlineare me numrin e njerëzve të përfshirë. (Siç na mësoi J. Richard Hackman, numri i marrëdhënieve r rritet në mënyrë të ngjashme me funksionin e numrit të termave n sipas këtij ekuacioni: r = (n^2-n)/2. Dhe çdo marrëdhënie zbulon një sasi të marrëdhënia e kostos.) Kur shkencëtarët e të dhënave organizohen sipas funksionit, në çdo fazë, me çdo ndryshim, çdo dorëzim etj., kërkohen shumë specialistë, gjë që rrit kostot e koordinimit. Për shembull, modeluesit statistikorë që duan të eksperimentojnë me veçori të reja do të duhet të koordinohen me inxhinierët e të dhënave që shtojnë në grupet e të dhënave sa herë që duan të provojnë diçka të re. Po kështu, çdo model i ri i trajnuar do të thotë se zhvilluesi i modelit do të ketë nevojë për dikë me të cilin do të koordinohet për ta vënë atë në prodhim. Kostot e koordinimit veprojnë si një çmim për përsëritjen, duke i bërë ato më të vështira dhe më të shtrenjta dhe më shumë gjasa për të shkaktuar braktisjen e studimit. Kjo mund të ndërhyjë në të mësuarit.

2. E bën të vështirë kohën e pritjes.

Edhe më e frikshme se kostot e koordinimit është koha e humbur ndërmjet ndërrimeve të punës. Ndërsa kostot e koordinimit zakonisht maten në orë - koha që duhet për të kryer takime, diskutime, rishikime të projektimit - koha e pritjes zakonisht matet në ditë, javë apo edhe muaj! Oraret e specialistëve funksionalë janë të vështira për t'u balancuar sepse çdo specialist duhet të shpërndahet në shumë projekte. Një takim njëorësh për të diskutuar ndryshimet mund të duhen javë për të zbutur rrjedhën e punës. Dhe pasi të bihet dakord për ndryshimet, është e nevojshme të planifikohet vetë puna aktuale në kuadrin e shumë projekteve të tjera që zënë kohën e punës së specialistëve. Puna që përfshin rregullime kodi ose kërkime që duhen vetëm disa orë ose ditë për t'u përfunduar mund të zgjasë shumë më tepër përpara se burimet të bëhen të disponueshme. Deri atëherë, përsëritja dhe mësimi janë pezulluar.

3. E ngushton kontekstin.

Ndarja e punës mund të kufizojë artificialisht të mësuarit duke i shpërblyer njerëzit për të mbetur në specialitetin e tyre. Për shembull, një shkencëtar hulumtues, i cili duhet të qëndrojë brenda fushës së funksionalitetit të tij, do ta përqendrojë energjinë e tij në eksperimentimin me lloje të ndryshme algoritmesh: regresion, rrjete nervore, pyll të rastësishëm etj. Sigurisht, zgjedhjet e mira të algoritmeve mund të çojnë në përmirësime në rritje, por zakonisht ka shumë më tepër për të fituar nga aktivitete të tjera, të tilla si integrimi i burimeve të reja të të dhënave. Po kështu, do të ndihmojë në zhvillimin e një modeli që shfrytëzon çdo pjesë të fuqisë shpjeguese të natyrshme në të dhëna. Megjithatë, forca e tij mund të qëndrojë në ndryshimin e funksionit objektiv ose lehtësimin e kufizimeve të caktuara. Kjo është e vështirë të shihet ose të bëhet kur puna e saj është e kufizuar. Për shkak se një shkencëtar teknik është i specializuar në optimizimin e algoritmeve, ai ka shumë më pak gjasa të bëjë diçka tjetër, edhe nëse ajo sjell përfitime të rëndësishme.

Për të emërtuar shenjat që shfaqen kur ekipet e shkencës së të dhënave veprojnë si fabrika pin (për shembull, në përditësimet e thjeshta të statusit): "pritja për ndryshimet e tubacionit të të dhënave" dhe "pritja për burimet e ML Eng" janë bllokues të zakonshëm. Megjithatë, besoj se ndikimi më i rrezikshëm është ai që nuk e vëreni, sepse nuk mund të pendoheni për atë që nuk e dini tashmë. Ekzekutimi i përsosur dhe vetëkënaqësia e fituar nga arritja e efikasitetit të procesit mund të maskojnë të vërtetën se organizatat nuk janë të vetëdijshme për përfitimet e të mësuarit që po i mungojnë.

Zgjidhja për këtë problem, natyrisht, është të heqësh qafe metodën e pinit të fabrikës. Për të inkurajuar të mësuarit dhe përsëritjen, rolet e shkencëtarëve të të dhënave duhet të jenë të përgjithshme, por me përgjegjësi të gjera të pavarura nga funksioni teknik, d.m.th. të organizojnë shkencëtarët e të dhënave në mënyrë që ata të optimizohen për të mësuar. Kjo nënkupton punësimin e "specialistëve të plotë" - specialistë të përgjithshëm që mund të kryejnë një sërë funksionesh, nga koncepti tek modelimi, zbatimi te matja. Është e rëndësishme të theksohet se unë nuk po sugjeroj që punësimi i talenteve të plota duhet të zvogëlojë numrin e punonjësve. Përkundrazi, thjesht do të supozoj se kur ato organizohen ndryshe, stimujt e tyre përputhen më mirë me përfitimet e të mësuarit dhe performancës. Për shembull, le të themi se keni një ekip prej tre personash me tre aftësi biznesi. Në një fabrikë kunjash, çdo teknik do t'i kushtojë një të tretën e kohës së tij çdo detyre pune, pasi askush tjetër nuk mund ta bëjë punën e tij. Në një grumbull të plotë, çdo gjeneralist është plotësisht i përkushtuar për të gjithë procesin e biznesit, shkallëzimit dhe trajnimit.

Me më pak njerëz që mbështesin ciklin e prodhimit, koordinimi zvogëlohet. Gjeneralisti lëviz rrjedhshëm midis veçorive, duke zgjeruar tubacionin e të dhënave për të shtuar më shumë të dhëna, duke provuar veçori të reja në modele, duke vendosur versione të reja në prodhim për matjet shkakësore dhe duke përsëritur hapat aq shpejt sa dalin ide të reja. Natyrisht, stacion vagoni kryen funksione të ndryshme në mënyrë sekuenciale dhe jo paralelisht. Në fund të fundit, është vetëm një person. Megjithatë, përfundimi i një detyre zakonisht merr vetëm një pjesë të kohës së nevojshme për të hyrë në një burim tjetër të specializuar. Pra, koha e përsëritjes zvogëlohet.

Gjeneralisti ynë mund të mos jetë aq i aftë sa një specialist në një funksion të caktuar pune, por ne nuk përpiqemi për përsosmëri funksionale ose përmirësime të vogla në rritje. Përkundrazi, ne përpiqemi të mësojmë dhe të zbulojmë gjithnjë e më shumë sfida profesionale me ndikim gradual. Me një kontekst holistik për një zgjidhje të plotë, ai sheh mundësi që një specialist do të humbiste. Ai ka më shumë ide dhe më shumë mundësi. Ai gjithashtu dështon. Megjithatë, kostoja e dështimit është e ulët dhe përfitimet e të mësuarit janë të larta. Kjo asimetri nxit përsëritjen e shpejtë dhe shpërblen të mësuarit.

Është e rëndësishme të theksohet se sasia e autonomisë dhe diversitetit të aftësive të ofruara për shkencëtarët e grupit të plotë varet kryesisht nga qëndrueshmëria e platformës së të dhënave në të cilën do të punohet. Një platformë e mirë-projektuar e të dhënave abstrakton shkencëtarët e të dhënave nga kompleksiteti i kontejnerizimit, përpunimit të shpërndarë, dështimit automatik dhe koncepteve të tjera të avancuara kompjuterike. Përveç abstraksionit, një platformë e fuqishme e të dhënave mund të sigurojë lidhje pa probleme me infrastrukturën eksperimentale, të automatizojë monitorimin dhe sinjalizimin, të mundësojë shkallëzimin dhe vizualizimin automatik të rezultateve algoritmike dhe korrigjimin e gabimeve. Këta komponentë janë projektuar dhe ndërtuar nga inxhinierët e platformës së të dhënave, që do të thotë se nuk kalohen nga shkencëtari i të dhënave te ekipi i zhvillimit të platformës së të dhënave. Është specialisti i Shkencës së të Dhënave ai që është përgjegjës për të gjithë kodin e përdorur për të drejtuar platformën.

Edhe unë dikur isha i interesuar për ndarjen funksionale të punës duke përdorur efikasitetin e procesit, por përmes provës dhe gabimit (nuk ka mënyrë më të mirë për të mësuar), zbulova se rolet tipike lehtësojnë më mirë të mësuarit dhe inovacionin dhe ofrojnë metrikat e duhura: zbulimi dhe duke krijuar shumë më tepër mundësi biznesi sesa një qasje e specializuar. (Një mënyrë më efektive për të mësuar rreth kësaj qasjeje ndaj organizimit sesa prova dhe gabimi që kalova është të lexosh librin e Amy Edmondson Team Colaboration: How Organizations Learn, Innovate, and Compete in the Knowledge Economy).

Ka disa supozime të rëndësishme që mund ta bëjnë këtë qasje të organizimit pak a shumë të besueshme në disa kompani. Procesi i përsëritjes zvogëlon koston e provës dhe gabimit. Nëse kostoja e gabimit është e lartë, mund të dëshironi t'i zvogëloni ato (por kjo nuk rekomandohet për aplikime mjekësore ose prodhim). Për më tepër, nëse keni të bëni me petabajt ose ekzabajt të dhënash, mund të kërkohet specializimi në inxhinierinë e të dhënave. Po kështu, nëse ruajtja e aftësive të biznesit në internet dhe disponueshmëria e tyre është më e rëndësishme sesa përmirësimi i tyre, përsosmëria funksionale mund të mposhtet të mësuarit. Së fundi, modeli i stivës së plotë mbështetet në mendimet e njerëzve që dinë për të. Ata nuk janë njëbrirësh; mund t'i gjeni ose t'i përgatisni vetë. Megjithatë, ato janë në kërkesë të lartë dhe tërheqja dhe mbajtja e tyre do të kërkojë kompensim konkurrues, vlera të forta korporative dhe punë sfiduese. Sigurohuni që kultura e kompanisë suaj ta mbështesë këtë.

Edhe me gjithë atë që u tha, unë besoj se modeli i stivës së plotë ofron kushtet më të mira të fillimit. Filloni me to, dhe pastaj me vetëdije lëvizni drejt një ndarje funksionale të punës vetëm kur është absolutisht e nevojshme.

Ka disavantazhe të tjera të specializimit funksional. Kjo mund të çojë në humbje të përgjegjësisë dhe pasivitet nga ana e punëtorëve. Vetë Smith kritikon ndarjen e punës, duke sugjeruar se ajo çon në mpirje të talentit, d.m.th. punëtorët bëhen injorantë dhe të tërhequr pasi rolet e tyre janë të kufizuara në disa detyra të përsëritura. Ndërsa specializimi mund të sigurojë efikasitet të procesit, ka më pak gjasa të frymëzojë punëtorët.

Nga ana tjetër, rolet e gjithanshme ofrojnë të gjitha gjërat që nxisin kënaqësinë në punë: autonominë, zotërimin dhe qëllimin. Autonomia është se ata nuk varen nga asgjë për të arritur sukses. Mjeshtëria qëndron në avantazhet e forta konkurruese. Dhe ndjenja e qëllimit qëndron në mundësinë për të pasur një ndikim në biznesin që ata krijojnë. Nëse ne mund t'i emocionojmë njerëzit për punën e tyre dhe të kemi një ndikim të madh në kompani, atëherë gjithçka tjetër do të bjerë në vend.

Burimi: www.habr.com

Shto një koment