Bakit kailangan ng mga pangkat ng Data Science ng mga generalist, hindi ng mga espesyalista

Bakit kailangan ng mga pangkat ng Data Science ng mga generalist, hindi ng mga espesyalista
HIROSHI WATANABE/GETTY IMAGES

Sa The Wealth of Nations, ipinakita ni Adam Smith kung paano nagiging pangunahing pinagmumulan ng pagtaas ng produktibidad ang dibisyon ng paggawa. Ang isang halimbawa ay ang linya ng pagpupulong ng isang pabrika ng pin: "Hinihila ng isang manggagawa ang alambre, itinutuwid ito ng isa, pinuputol ito ng ikatlo, pinapatalas ng ikaapat ang dulo, giniling ng ikalimang bahagi ang kabilang dulo upang magkasya sa ulo." Salamat sa espesyalisasyon na nakatuon sa mga partikular na function, ang bawat empleyado ay nagiging isang mataas na kwalipikadong espesyalista sa kanyang makitid na gawain, na humahantong sa pagtaas ng kahusayan sa proseso. Ang output ng bawat manggagawa ay tumataas nang maraming beses, at ang pabrika ay nagiging mas mahusay sa paggawa ng mga pin.

Ang dibisyon ng paggawa ayon sa functionality ay nakatanim sa aming mga isipan kahit ngayon kaya mabilis naming inayos ang aming mga koponan nang naaayon. Ang Data Science ay walang pagbubukod. Ang mga kumplikadong algorithmic na kakayahan sa negosyo ay nangangailangan ng maraming function sa trabaho, kaya ang mga kumpanya ay karaniwang gumagawa ng mga koponan ng mga espesyalista: mga mananaliksik, mga inhinyero ng data, mga inhinyero sa pag-aaral ng makina, mga siyentipikong sanhi at epekto, at iba pa. Ang gawain ng mga espesyalista ay pinag-ugnay ng tagapamahala ng produkto sa paglipat ng mga pag-andar sa paraang kahawig ng isang pabrika ng pin: "ang isang tao ay tumatanggap ng data, isa pang modelo nito, isang pangatlo ang nagsasagawa nito, isang ikaapat na hakbang" at iba pa,

Sa kasamaang palad, hindi namin dapat i-optimize ang aming mga koponan sa Data Science upang mapabuti ang pagiging produktibo. Gayunpaman, gagawin mo ito kapag naiintindihan mo kung ano ang iyong ginagawa: mga pin o iba pa, at nagsusumikap lamang na pataasin ang kahusayan. Ang layunin ng mga linya ng pagpupulong ay upang makumpleto ang isang gawain. Alam namin nang eksakto kung ano ang gusto namin - mga pin (tulad ng sa halimbawa ni Smith), ngunit maaaring banggitin ang anumang produkto o serbisyo kung saan ganap na inilalarawan ng mga kinakailangan ang lahat ng aspeto ng produkto at pag-uugali nito. Ang tungkulin ng mga empleyado ay upang matupad ang mga kinakailangang ito nang mahusay hangga't maaari.

Ngunit ang layunin ng Data Science ay hindi upang makumpleto ang mga gawain. Sa halip, ang layunin ay upang galugarin at bumuo ng malakas na mga bagong pagkakataon sa negosyo. Algorithmic na mga produkto at serbisyo tulad ng mga sistema ng rekomendasyon, pakikipag-ugnayan ng customer, pag-uuri ng mga kagustuhan sa istilo, laki, disenyo ng damit, pag-optimize ng logistik, seasonal trend detection at marami pang iba ay hindi made-develop nang maaga. Dapat silang pag-aralan. Walang mga blueprint na maaaring kopyahin, ito ay mga bagong posibilidad na may likas na kawalan ng katiyakan. Ang mga koepisyent, modelo, uri ng modelo, hyperparameter, lahat ng kinakailangang elemento ay dapat matutunan sa pamamagitan ng eksperimento, pagsubok at pagkakamali, at pag-uulit. Gamit ang mga pin, ang pagsasanay at disenyo ay ginagawa bago ang produksyon. Sa Data Science, natututo ka gaya ng ginagawa mo, hindi dati.

Sa isang pabrika ng pin, kapag nauuna ang pagsasanay, hindi namin inaasahan o nais na mag-improvise ang mga manggagawa sa anumang tampok ng produkto maliban sa pagpapabuti ng kahusayan sa produksyon. Ang pagpapakadalubhasa sa mga gawain ay may katuturan dahil humahantong ito sa kahusayan sa proseso at pagkakapare-pareho ng produksyon (nang walang mga pagbabago sa panghuling produkto).

Ngunit kapag ang produkto ay umuunlad pa rin at ang layunin ay pagsasanay, ang pagdadalubhasa ay nakakasagabal sa aming mga layunin sa mga sumusunod na kaso:

1. Pinapataas nito ang mga gastos sa koordinasyon.

Ibig sabihin, iyong mga gastos na naipon sa oras na ginugol sa pakikipag-usap, pagtalakay, pagbibigay-katwiran at pagbibigay-priyoridad sa gawaing kailangang gawin. Ang mga gastos na ito ay super-linearly na sumusukat sa bilang ng mga taong kasangkot. (Tulad ng itinuro sa atin ni J. Richard Hackman, ang bilang ng mga relasyon r ay lumalaki nang katulad sa paggana ng bilang ng mga termino n ayon sa equation na ito: r = (n^2-n)/2. At ang bawat relasyon ay nagpapakita ng ilang halaga ng relasyon sa gastos.) Kapag ang mga data scientist ay inayos ayon sa function, sa bawat yugto, sa bawat pagbabago, bawat handover, atbp., maraming mga espesyalista ang kinakailangan, na nagpapataas ng mga gastos sa koordinasyon. Halimbawa, ang mga statistical modeler na gustong mag-eksperimento sa mga bagong feature ay kailangang makipag-ugnayan sa mga data engineer na nagdaragdag sa mga data set sa tuwing gusto nilang sumubok ng bago. Gayundin, ang bawat bagong modelong sinanay ay nangangahulugan na ang developer ng modelo ay mangangailangan ng isang tao na makakasama upang ilagay ito sa produksyon. Ang mga gastos sa koordinasyon ay kumikilos bilang isang presyo para sa pag-ulit, na ginagawa itong mas mahirap at mahal at mas malamang na maging sanhi ng pag-abandona ng pag-aaral. Ito ay maaaring makagambala sa pag-aaral.

2. Ginagawa nitong mahirap ang mga oras ng paghihintay.

Ang mas nakakatakot kaysa sa mga gastos sa koordinasyon ay ang oras na nawala sa pagitan ng mga shift sa trabaho. Habang ang mga gastos sa koordinasyon ay karaniwang sinusukat sa mga oras - ang oras na kinakailangan upang magsagawa ng mga pagpupulong, talakayan, pagsusuri sa disenyo - ang oras ng paghihintay ay karaniwang sinusukat sa mga araw, linggo o kahit na buwan! Ang mga iskedyul ng mga functional na espesyalista ay mahirap balansehin dahil ang bawat espesyalista ay dapat ipamahagi sa maraming proyekto. Ang isang oras na pagpupulong upang talakayin ang mga pagbabago ay maaaring tumagal ng ilang linggo upang maayos ang daloy ng trabaho. At pagkatapos sumang-ayon sa mga pagbabago, kinakailangan na planuhin ang aktwal na gawain mismo sa konteksto ng maraming iba pang mga proyekto na sumasakop sa oras ng pagtatrabaho ng mga espesyalista. Ang trabahong may kinalaman sa mga pag-aayos ng code o pananaliksik na tumatagal lamang ng ilang oras o araw upang makumpleto ay maaaring mas matagal bago maging available ang mga mapagkukunan. Hanggang sa panahong iyon, sinuspinde ang pag-ulit at pag-aaral.

3. Pinapakipot nito ang konteksto.

Maaaring artipisyal na limitahan ng dibisyon ng paggawa ang pag-aaral sa pamamagitan ng pagbibigay ng reward sa mga tao sa pananatili sa kanilang espesyalidad. Halimbawa, ang isang research scientist na dapat manatili sa saklaw ng kanyang functionality ay itutuon ang kanyang enerhiya sa pag-eksperimento sa iba't ibang uri ng algorithm: regression, neural network, random forest, at iba pa. Siyempre, ang mahusay na mga pagpipilian sa algorithm ay maaaring humantong sa mga incremental na pagpapabuti, ngunit karaniwang marami pang makukuha mula sa iba pang mga aktibidad, tulad ng pagsasama ng mga bagong mapagkukunan ng data. Gayundin, makakatulong ito sa pagbuo ng isang modelo na nagsasamantala sa bawat bit ng kapangyarihan sa pagpapaliwanag na likas sa data. Gayunpaman, ang lakas nito ay maaaring nasa pagbabago ng layunin na pag-andar o pagrerelaks ng ilang mga hadlang. Ito ay mahirap makita o gawin kapag ang kanyang trabaho ay limitado. Dahil ang isang teknikal na siyentipiko ay dalubhasa sa pag-optimize ng mga algorithm, mas maliit ang posibilidad na gumawa siya ng anumang bagay, kahit na nagdudulot ito ng mga makabuluhang benepisyo.

Upang pangalanan ang mga senyales na lumilitaw kapag ang mga data science team ay kumikilos bilang mga pabrika ng pin (halimbawa, sa mga simpleng pag-update ng status): "naghihintay para sa mga pagbabago sa pipeline ng data" at "naghihintay para sa mga mapagkukunan ng ML Eng" ay karaniwang mga blocker. Gayunpaman, naniniwala ako na ang mas mapanganib na impluwensya ay ang hindi mo napapansin, dahil hindi mo maaaring pagsisihan ang hindi mo pa alam. Ang walang kamali-mali na pagpapatupad at ang kasiyahang natamo mula sa pagkamit ng kahusayan sa proseso ay maaaring magtakpan ng katotohanan na ang mga organisasyon ay walang kamalayan sa mga benepisyo sa pag-aaral na nawawala sa kanila.

Ang solusyon sa problemang ito, siyempre, ay upang mapupuksa ang paraan ng factory pin. Upang hikayatin ang pag-aaral at pag-ulit, ang mga tungkulin ng data scientist ay dapat na generic ngunit may malawak na mga responsibilidad na independiyente sa teknikal na function, ibig sabihin, ayusin ang mga data scientist upang sila ay ma-optimize para sa pag-aaral. Nangangahulugan ito ng pagkuha ng "mga full stack specialist"β€”mga pangkalahatang espesyalista na maaaring magsagawa ng iba't ibang mga function, mula sa konsepto hanggang sa pagmomodelo, pagpapatupad hanggang sa pagsukat. Mahalagang tandaan na hindi ko iminumungkahi na ang pagkuha ng full-stack na talento ay dapat na bawasan ang bilang ng mga empleyado. Sa halip, ipagpalagay ko lang na kapag iba ang pagkakaayos nila, ang kanilang mga insentibo ay mas naaayon sa mga benepisyo sa pag-aaral at pagganap. Halimbawa, sabihin nating mayroon kang pangkat ng tatlong tao na may tatlong kasanayan sa negosyo. Sa isang pabrika ng pin, ang bawat technician ay maglalaan ng ikatlong bahagi ng kanyang oras sa bawat gawain sa trabaho, dahil walang ibang makakagawa ng kanyang trabaho. Sa isang buong stack, ang bawat generalist ay ganap na nakatuon sa buong proseso ng negosyo, scale-up, at pagsasanay.

Sa mas kaunting mga tao na sumusuporta sa ikot ng produksyon, nababawasan ang koordinasyon. Mabilis na gumagalaw ang generalist sa pagitan ng mga feature, pagpapalawak ng pipeline ng data upang magdagdag ng higit pang data, pagsubok ng mga bagong feature sa mga modelo, pagde-deploy ng mga bagong bersyon sa produksyon para sa mga pagsukat ng sanhi, at paulit-ulit na mga hakbang sa lalong madaling panahon ng mga bagong ideya. Siyempre, ang station wagon ay gumaganap ng iba't ibang mga function nang sunud-sunod at hindi parallel. Kung tutuusin, isang tao lang. Gayunpaman, ang pagkumpleto ng isang gawain ay karaniwang tumatagal lamang ng isang bahagi ng oras na kinakailangan upang ma-access ang isa pang espesyal na mapagkukunan. Kaya, bumababa ang oras ng pag-ulit.

Ang aming generalist ay maaaring hindi kasing dalubhasa ng isang espesyalista sa isang partikular na tungkulin ng trabaho, ngunit hindi kami nagsusumikap para sa pagiging perpekto sa pagganap o maliit na karagdagang mga pagpapabuti. Sa halip, nagsusumikap kaming matuto at tumuklas ng higit at higit pang mga propesyonal na hamon na may unti-unting epekto. Gamit ang isang holistic na konteksto para sa isang kumpletong solusyon, nakikita niya ang mga pagkakataon na mapalampas ng isang espesyalista. Mas marami siyang ideya at mas maraming posibilidad. Nabigo rin siya. Gayunpaman, ang halaga ng pagkabigo ay mababa at ang mga benepisyo ng pag-aaral ay mataas. Ang kawalaan ng simetrya na ito ay nagtataguyod ng mabilis na pag-ulit at ginagantimpalaan ang pag-aaral.

Mahalagang tandaan na ang dami ng awtonomiya at pagkakaiba-iba ng kasanayan na ibinibigay sa buong stack na mga siyentipiko ay higit na nakadepende sa tibay ng platform ng data kung saan gagana. Ang isang mahusay na idinisenyong platform ng data ay nag-abstract ng mga data scientist mula sa mga kumplikado ng containerization, distributed processing, awtomatikong failover, at iba pang advanced na konsepto ng computing. Bilang karagdagan sa abstraction, ang isang matatag na platform ng data ay maaaring magbigay ng tuluy-tuloy na koneksyon sa pang-eksperimentong imprastraktura, i-automate ang pagsubaybay at pag-alerto, paganahin ang awtomatikong pag-scale at visualization ng algorithmic na mga resulta at pag-debug. Ang mga bahaging ito ay idinisenyo at binuo ng mga inhinyero ng platform ng data, ibig sabihin, hindi ipinapasa ang mga ito mula sa data scientist patungo sa pangkat ng pagbuo ng platform ng data. Ang dalubhasa sa Data Science ang responsable para sa lahat ng code na ginamit upang patakbuhin ang platform.

Ako rin, ay minsang naging interesado sa functional division ng paggawa gamit ang kahusayan sa proseso, ngunit sa pamamagitan ng pagsubok at pagkakamali (walang mas mahusay na paraan upang matuto), natuklasan ko na ang mga tipikal na tungkulin ay mas pinadali ang pag-aaral at pagbabago at nagbibigay ng mga tamang sukatan: pagtuklas at pagbuo ng mas maraming pagkakataon sa negosyo kaysa sa espesyal na diskarte. (Ang isang mas epektibong paraan upang malaman ang tungkol sa diskarteng ito sa pag-oorganisa kaysa sa pagsubok at pagkakamaling pinagdaanan ko ay ang pagbabasa ng aklat ni Amy Edmondson na Team Collaboration: How Organizations Learn, Innovate, and Competition in the Knowledge Economy).

Mayroong ilang mahahalagang pagpapalagay na maaaring gumawa ng diskarteng ito sa pag-aayos ng higit pa o hindi gaanong maaasahan sa ilang kumpanya. Binabawasan ng proseso ng pag-ulit ang gastos ng pagsubok at pagkakamali. Kung mataas ang halaga ng error, maaaring gusto mong bawasan ang mga ito (ngunit hindi ito inirerekomenda para sa mga medikal na aplikasyon o pagmamanupaktura). Bukod pa rito, kung nakikipag-usap ka sa mga petabytes o exabytes ng data, maaaring kailanganin ang espesyalisasyon sa data engineering. Gayundin, kung ang pagpapanatili ng mga kakayahan sa online na negosyo at ang kanilang kakayahang magamit ay mas mahalaga kaysa sa pagpapabuti ng mga ito, ang kahusayan sa pag-andar ay maaaring makalampas sa pag-aaral. Sa wakas, ang buong stack na modelo ay umaasa sa mga opinyon ng mga taong nakakaalam tungkol dito. Hindi sila unicorn; maaari mong mahanap ang mga ito o ihanda ang mga ito sa iyong sarili. Gayunpaman, sila ay nasa mataas na pangangailangan at ang pag-akit at pagpapanatili sa kanila ay mangangailangan ng mapagkumpitensyang kabayaran, malakas na halaga ng korporasyon at mapaghamong trabaho. Tiyaking masusuportahan ito ng kultura ng iyong kumpanya.

Kahit na sa lahat ng sinabi, naniniwala ako na ang buong stack na modelo ay nagbibigay ng pinakamahusay na mga kondisyon sa pagsisimula. Magsimula sa kanila, at pagkatapos ay sinasadyang lumipat patungo sa isang functional division ng paggawa lamang kapag talagang kinakailangan.

Mayroong iba pang mga disadvantages ng functional specialization. Ito ay maaaring humantong sa pagkawala ng responsibilidad at pagiging pasibo sa bahagi ng mga manggagawa. Si Smith mismo ay pinupuna ang dibisyon ng paggawa, na nagmumungkahi na ito ay humahantong sa pagdurugo ng talento, i.e. ang mga manggagawa ay nagiging mangmang at umatras dahil ang kanilang mga tungkulin ay limitado sa ilang paulit-ulit na gawain. Bagama't ang espesyalisasyon ay maaaring magbigay ng kahusayan sa proseso, ito ay mas malamang na magbigay ng inspirasyon sa mga manggagawa.

Sa turn, ang maraming nalalaman na tungkulin ay nagbibigay ng lahat ng bagay na nagtutulak ng kasiyahan sa trabaho: awtonomiya, mastery, at layunin. Ang awtonomiya ay hindi sila umaasa sa anumang bagay upang makamit ang tagumpay. Ang karunungan ay nakasalalay sa malakas na mga kalamangan sa kompetisyon. At ang kahulugan ng layunin ay nakasalalay sa pagkakataong magkaroon ng epekto sa negosyong kanilang nilikha. Kung mapasasabik natin ang mga tao tungkol sa kanilang trabaho at magkaroon ng malaking epekto sa kumpanya, kung gayon lahat ng iba ay mahuhulog sa lugar.

Pinagmulan: www.habr.com

Magdagdag ng komento