Неліктен Data Science топтарына мамандар емес, жалпы мамандар қажет?

Неліктен Data Science топтарына мамандар емес, жалпы мамандар қажет?
HIROSHI WATANABE/GETTY IMAGES

Адам Смит «Ұлттардың байлығы» еңбегінде еңбек бөлінісінің өнімділікті арттырудың негізгі көзіне қалай айналатынын көрсетеді. Мысал ретінде түйреуіш зауытының конвейерін келтіруге болады: «Бір жұмысшы сымды тартады, екіншісі оны түзетеді, үшіншісі кеседі, төртіншісі ұшын қайрайды, бесіншісі екінші ұшын басына сай етіп қайрайды». Белгілі бір функцияларға бағытталған мамандандырудың арқасында әрбір қызметкер өзінің тар міндеті бойынша жоғары білікті маманға айналады, бұл процестің тиімділігін арттыруға әкеледі. Бір жұмысшының өнімі бірнеше есе артып, зауыт түйреуіштерді өндіруде тиімдірек болады.

Функционалдылық бойынша еңбекті бөлу бүгінгі күні де санамызға сіңгені сонша, біз командаларымызды соған сәйкес тез ұйымдастырдық. Деректер ғылымы да ерекшелік емес. Күрделі алгоритмдік іскерлік мүмкіндіктер бірнеше жұмыс функцияларын талап етеді, сондықтан компаниялар әдетте мамандар тобын құрады: зерттеушілер, деректер инженерлері, машиналық оқыту инженерлері, себеп-салдар ғалымдары және т.б. Мамандардың жұмысын өнім менеджері түйреуіш зауытына ұқсайтын функцияларды берумен үйлестіреді: «бір адам деректерді алады, екіншісі оны модельдейді, үшінші оны орындайды, төртінші өлшейді» және т.б.

Өкінішке орай, біз өнімділікті арттыру үшін Data Science топтарын оңтайландырмауымыз керек. Дегенмен, сіз мұны не өндіріп жатқаныңызды түсінген кезде жасайсыз: түйреуіштер немесе басқа нәрсе және жай ғана тиімділікті арттыруға тырысыңыз. Құрастыру желілерінің мақсаты - тапсырманы орындау. Біз нақты не қалайтынымызды білеміз - түйреуіштер (Смит мысалындағыдай), бірақ талаптар өнімнің және оның мінез-құлқының барлық аспектілерін толық сипаттайтын кез келген өнімді немесе қызметті атап өтуге болады. Қызметкерлердің міндеті - бұл талаптарды барынша тиімді орындау.

Бірақ Data Science мақсаты тапсырмаларды орындау емес. Керісінше, мақсат - күшті жаңа бизнес мүмкіндіктерін зерттеу және дамыту. Ұсыныс жүйелері, тұтынушылармен өзара әрекеттесу, стиль таңдауларының жіктелуі, өлшемдер, киім дизайны, логистикалық оңтайландыру, маусымдық трендтерді анықтау және т.б. сияқты алгоритмдік өнімдер мен қызметтерді алдын ала әзірлеу мүмкін емес. Оларды зерттеу керек. Қайталанатын сызбалар жоқ, бұл белгісіздікке ие жаңа мүмкіндіктер. Коэффициенттер, модельдер, модель түрлері, гиперпараметрлер, барлық қажетті элементтер тәжірибе, сынақ және қателер, қайталау арқылы үйрену керек. Істікшелермен оқыту және дизайн өндіріс алдында жасалады. Data Science көмегімен сіз бұрын емес, қалай үйренсеңіз, солай үйренесіз.

Штырь зауытында оқыту бірінші орында тұрғанда, біз жұмысшылардың өндіріс тиімділігін арттырудан басқа өнімнің қандай да бір ерекшелігін импровизациялауын күтпейміз және қаламаймыз. Мамандандырылған тапсырмалардың мағынасы бар, себебі ол процестің тиімділігіне және өндірістің жүйелілігіне әкеледі (соңғы өнімге өзгеріссіз).

Бірақ өнім әлі де дамып жатқанда және мақсат оқыту болса, мамандандыру келесі жағдайларда біздің мақсаттарымызға кедергі келтіреді:

1. Бұл үйлестіру шығындарын арттырады.

Яғни, сөйлесуге, талқылауға, негіздеуге және жасалуы керек жұмыстардың басымдықтарын анықтауға жұмсалған уақыт ішінде жиналатын шығындар. Бұл шығындар тартылған адамдар санына байланысты өте сызықты түрде масштабталады. (Дж. Ричард Хэкман бізге үйреткендей, r қатынастарының саны осы теңдеу бойынша n мүшелерінің санының функциясына ұқсас өседі: r = (n^2-n)/2. Және әрбір қатынас белгілі бір соманы көрсетеді. шығындар қатынасы.) Деректер ғалымдары функция бойынша ұйымдастырылған кезде, әр кезеңде, әр өзгерісте, әр тапсыруда және т.б. көптеген мамандар қажет, бұл үйлестіру шығындарын арттырады. Мысалы, жаңа мүмкіндіктермен тәжірибе жасағысы келетін статистикалық модельдеушілер жаңа нәрсені көргісі келген сайын деректер жиынына қосатын деректер инженерлерімен үйлестіруге мәжбүр болады. Сол сияқты, оқытылған әрбір жаңа модель модельді әзірлеуші ​​оны өндіріске енгізу үшін оны үйлестіретін біреу қажет болады дегенді білдіреді. Үйлестіру шығындары итерация бағасы ретінде әрекет етеді, бұл оларды қиынырақ және қымбат етеді және зерттеуден бас тартуға әкелуі мүмкін. Бұл оқуға кедергі келтіруі мүмкін.

2. Күту уақытын қиындатады.

Үйлестіру шығындарынан да ауыр жұмыс ауысымдары арасындағы уақыт жоғалады. Үйлестіру шығындары әдетте сағаттармен өлшенеді - кездесулерді, талқылауларды, дизайнды шолуларды өткізуге кететін уақыт - күту уақыты әдетте күндермен, апталармен немесе тіпті айлармен өлшенеді! Функционалды мамандардың кестелерін теңестіру қиын, себебі әрбір маман бірнеше жобалар бойынша бөлінуі керек. Өзгерістерді талқылауға арналған бір сағаттық кездесу жұмыс процесін тегістеуге апта алуы мүмкін. Ал өзгертулермен келіскеннен кейін мамандардың жұмыс уақытын алатын көптеген басқа жобалар аясында нақты жұмыстың өзін жоспарлау қажет. Аяқталу үшін бірнеше сағат немесе күн ғана қажет болатын кодты түзету немесе зерттеуге қатысты жұмыс ресурстар қолжетімді болғанға дейін әлдеқайда ұзағырақ уақыт алуы мүмкін. Осы уақытқа дейін қайталау және оқу тоқтатылады.

3. Ол контекстті тарылтады.

Еңбек бөлінісі адамдарды өз мамандығында қалғаны үшін марапаттау арқылы оқуды жасанды түрде шектей алады. Мысалы, өзінің функционалдық ауқымында қалуы керек зерттеуші ғалым күшін алгоритмдердің әртүрлі түрлерімен тәжірибе жасауға бағыттайды: регрессия, нейрондық желілер, кездейсоқ орман және т.б. Әрине, алгоритмді жақсы таңдау қадамдық жақсартуларға әкелуі мүмкін, бірақ әдетте жаңа деректер көздерін біріктіру сияқты басқа әрекеттерден көп нәрсе алуға болады. Сол сияқты, ол деректерге тән түсіндіру күшін пайдаланатын модельді жасауға көмектеседі. Дегенмен, оның күші мақсат функциясын өзгертуде немесе белгілі бір шектеулерді жеңілдетуде болуы мүмкін. Оның жұмысы шектеулі болған кезде мұны көру немесе жасау қиын. Техникалық ғалым алгоритмдерді оңтайландыруға маманданғандықтан, ол айтарлықтай пайда әкелсе де, басқа ештеңемен айналыса алмайды.

Деректер ғылымы топтары түйреуіш зауыттары ретінде әрекет еткенде пайда болатын белгілерді атау үшін (мысалы, жай күй жаңартуларында): «деректер құбырының өзгерістерін күту» және «ML Eng ресурстарын күту» жалпы блокаторлар болып табылады. Дегенмен, менің ойымша, ең қауіпті әсер - сіз байқамайтын нәрсе, өйткені сіз білмегеніңізге өкіне алмайсыз. Мінсіз орындау және процестің тиімділігіне қол жеткізуден алынған тоқмейілсу ұйымдардың олар жіберіп алған оқу артықшылықтарын білмейтіндігі туралы шындықты жасыруы мүмкін.

Бұл мәселенің шешімі, әрине, зауыттық пин әдісінен құтылу. Оқытуды және қайталауды ынталандыру үшін деректер зерттеушісі рөлдері жалпы болуы керек, бірақ техникалық функциядан тәуелсіз кең жауапкершіліктері бар, яғни деректер зерттеушілерін оқу үшін оңтайландырылған етіп ұйымдастыру керек. Бұл тұжырымдамадан модельдеуге, енгізуден өлшеуге дейін әртүрлі функцияларды орындай алатын «толық стек мамандарын» — жалпы мамандарды жалдау дегенді білдіреді. Айта кету керек, мен толық кадрларды жалдау қызметкерлер санын азайту керек деп ұсынбаймын. Керісінше, мен олар басқаша ұйымдастырылған кезде, олардың ынталандырулары оқу және өнімділік артықшылықтарына жақсырақ сәйкес келеді деп есептеймін. Мысалы, сізде үш іскерлік қабілеті бар үш адамнан тұратын команда бар делік. Штырь зауытында әр техник өз уақытының үштен бірін әрбір тапсырмаға арнайды, өйткені оның жұмысын басқа ешкім орындай алмайды. Толық стекте әрбір жалпы маман бүкіл бизнес-процеске, ауқымды ұлғайтуға және оқытуға толығымен арналады.

Өндірістік циклді қолдайтын адамдар аз болғандықтан, үйлестіру азаяды. Жалпы маман мүмкіндіктер арасында жылдам қозғалады, қосымша деректерді қосу үшін деректер құбырын кеңейтеді, үлгілердегі жаңа мүмкіндіктерді сынап көреді, себепті өлшеулер үшін өндіріске жаңа нұсқаларды қолданады және жаңа идеялар пайда болған кезде қадамдарды тез қайталайды. Әрине, вагон параллельді емес, әртүрлі функцияларды дәйекті түрде орындайды. Өйткені, бұл бір ғана адам. Дегенмен, тапсырманы орындау әдетте басқа арнайы ресурсқа қол жеткізу үшін қажетті уақыттың бір бөлігін ғана алады. Осылайша, итерация уақыты азаяды.

Біздің жалпы маман белгілі бір жұмыс функциясының маманы сияқты білікті болмауы мүмкін, бірақ біз функционалдық жетілдіруге немесе шағын қадамдық жақсартуларға ұмтылмаймыз. Керісінше, біз біртіндеп әсер ететін кәсіби қиындықтарды үйренуге және ашуға тырысамыз. Толық шешімге арналған тұтас контекстпен ол маман жіберіп алатын мүмкіндіктерді көреді. Оның идеялары мен мүмкіндіктері көбірек. Ол да сәтсіздікке ұшырайды. Дегенмен, сәтсіздіктің құны төмен және оқудың пайдасы жоғары. Бұл асимметрия жылдам итерацияға ықпал етеді және оқуды марапаттайды.

Толық стек ғалымдарына берілетін автономия мен дағдылардың әртүрлілігі көбінесе жұмыс істейтін деректер платформасының беріктігіне байланысты екенін ескеру маңызды. Жақсы жобаланған деректер платформасы деректер ғалымдарын контейнерлеудің, үлестірілген өңдеудің, автоматты түрде ауыстырылуының және басқа да жетілдірілген есептеу тұжырымдамаларының күрделілігінен ажыратады. Абстракциядан басқа, сенімді деректер платформасы эксперименттік инфрақұрылымға үздіксіз қосылымды қамтамасыз ете алады, бақылау мен ескертуді автоматтандырады, алгоритмдік нәтижелерді автоматты масштабтауды және визуализациялауды және жөндеуді қоса алады. Бұл құрамдастарды деректер платформасының инженерлері әзірлеп, құрастырады, яғни олар деректер зерттеушісінен деректер платформасын әзірлеу тобына берілмейді. Бұл платформаны іске қосу үшін пайдаланылатын барлық кодқа жауапты Data Science маманы.

Мен де бір кездері процестің тиімділігін пайдалана отырып, еңбектің функционалдық бөлінуіне қызығушылық таныттым, бірақ сынақ пен қателік арқылы (үйренудің жақсы жолы жоқ) мен типтік рөлдер оқу мен инновацияны жақсырақ жеңілдететінін және дұрыс көрсеткіштерді беретінін анықтадым: ашу және мамандандырылған тәсілге қарағанда көп бизнес мүмкіндіктерін құру. (Мен бастан өткерген сынақ пен қателіктен гөрі ұйымдастырудың осы тәсілі туралы білудің тиімді жолы - Эми Эдмондсонның «Командадағы ынтымақтастық: ұйымдар білім экономикасында қалай үйренеді, жаңартады және бәсекелеседі» кітабын оқу).

Кейбір компанияларда ұйымдастыруға осы тәсілді азды-көпті сенімді ететін кейбір маңызды болжамдар бар. Итерация процесі сынақ пен қатенің құнын азайтады. Қатенің құны жоғары болса, оларды азайтқыңыз келуі мүмкін (бірақ бұл медициналық қолданбаларда немесе өндірісте ұсынылмайды). Бұған қоса, егер сіз петабайттар немесе эксабайттар деректерімен айналысатын болсаңыз, деректер инженериясында мамандану қажет болуы мүмкін. Сол сияқты, егер онлайн-бизнес мүмкіндіктерін және олардың қолжетімділігін сақтау оларды жақсартудан маңыздырақ болса, функционалдық жетістіктер оқуды жеңуі мүмкін. Соңында, толық стек моделі ол туралы білетін адамдардың пікірлеріне сүйенеді. Олар бір мүйізді емес; сіз оларды таба аласыз немесе өзіңіз дайындай аласыз. Дегенмен, олар жоғары сұранысқа ие және оларды тарту және сақтау бәсекеге қабілетті өтемақы, күшті корпоративтік құндылықтар мен күрделі жұмысты талап етеді. Сіздің компанияңыздың мәдениеті мұны қолдайтынына көз жеткізіңіз.

Осы айтылғандардың барлығына қарамастан, толық стек үлгісі ең жақсы бастау шарттарын қамтамасыз етеді деп ойлаймын. Олардан бастаңыз, содан кейін өте қажет болғанда ғана саналы түрде функционалдық еңбек бөлінісіне көшіңіз.

Функционалды мамандандырудың басқа да кемшіліктері бар. Бұл жұмысшылардың жауапкершілігін жоғалтуына және енжарлығына әкелуі мүмкін. Смиттің өзі еңбек бөлінісін сынай отырып, ол дарындылықтың әлсіреуіне әкеледі, т.б. жұмысшылар надан және тұйық болады, өйткені олардың рөлдері бірнеше қайталанатын тапсырмалармен шектеледі. Мамандандыру процестің тиімділігін қамтамасыз етуі мүмкін болғанымен, ол жұмысшыларды шабыттандырады.

Өз кезегінде, жан-жақты рөлдер жұмысқа қанағаттануға әкелетін барлық нәрселерді қамтамасыз етеді: автономия, шеберлік және мақсат. Автономия - олар табысқа жету үшін ештеңеге тәуелді емес. Шеберлік күшті бәсекелестік артықшылықтарда жатыр. Ал мақсат сезімі олар жасайтын бизнеске әсер ету мүмкіндігінде жатыр. Егер біз адамдарды өз жұмысына қызықтыра алсақ және компанияға үлкен әсер ете алсақ, қалғанының бәрі орнына келеді.

Ақпарат көзі: www.habr.com

пікір қалдыру