Դմիտրի ԿազակովՏվյալների վերլուծության թիմը, որը ղեկավարում է Kolesa Group-ում, կիսվում է տվյալների մասնագետների Ղազախստանի առաջին հետազոտության պատկերացումներով:
Լուսանկարում՝ Դմիտրի Կազակով
Հիշեք հայտնի արտահայտությունը, որ Big Data-ն ամենից շատ նման է դեռահասների սեքսին. բոլորը խոսում են դրա մասին, բայց ոչ ոք չգիտի, թե արդյոք այն իրականում գոյություն ունի: Նույնը կարելի է ասել տվյալների մասնագետների շուկայի մասին (Ղազախստանում) - կա աղմուկ, բայց ով է կանգնած դրա հետևում (և կա արդյոք որևէ մեկը այնտեղ ընդհանրապես) լիովին պարզ չէր՝ ոչ HR, ոչ մենեջերների, ոչ էլ տվյալների գիտնականներն իրենք են:
Մենք ծախսեցինք
Սփոյլեր: Այո, դրանք հաստատ կան, բայց ամեն ինչ այդքան էլ պարզ չէ։
Հաճելի պատկերացում: Նախ, ավելի շատ տվյալների գիտնականներ կան, քան մենք ակնկալում էինք: Մեզ հաջողվեց հարցազրույց վերցնել 300 հոգու հետ, որոնց թվում էին ոչ միայն արտադրանքի, մարքեթինգի և BI վերլուծաբաններ, այլ նաև ML և DWH ինժեներներ, ինչը հատկապես հաճելի էր։ Ամենամեծ խմբում ներառված էին բոլոր նրանք, ովքեր իրենց անվանում են տվյալների գիտնականներ՝ դա հարցվածների 36%-ն է: Դժվար է ասել՝ սա ծածկում է շուկայի պահանջարկը, թե ոչ, քանի որ շուկան ինքը նոր է ձևավորվում։
Աշխատանքի մակարդակների բաշխումը շփոթեցնող է. կան գրեթե նույնքան թիմերի ղեկավարներ և մենեջերներ, որքան կրտսերները: Դրա համար կարող են լինել մի քանի պատճառ: Օրինակ՝ մեծ թվով փոքր թիմեր՝ 2-3 հոգուց բաղկացած, որոնցում ղեկավարը կարող է լինել միջին կամ բարձր մակարդակի մասնագետ։
Մեկ այլ պատճառ կարող է լինել ներկայումս շուկայում տիրող քաոսը՝ կապված դերերի և ֆունկցիոնալության բաշխման չափանիշների հետ: Թիմի առաջատարները երբեմն նշանակվում են նրանց, ովքեր պարզապես մեկ կամ երկու տարի ավելի երկար են աշխատում, քան մյուսները՝ առանց հմտության և գիտելիքների մակարդակի հղումների: Մենք դա տեսնում ենք գործառույթների բաշխման մեջ՝ ըստ պաշտոնների. մենեջերների և թիմի ղեկավարների 38%-ը զբաղվում է նախնական մշակմամբ, ևս 33%-ը՝ հիմնական վիճակագրական վերլուծությամբ:
Այստեղ մենք հարցվածներին խնդրեցինք սուբյեկտիվորեն գնահատել իրենց ընկերությունների վերլուծության մակարդակը: Եթե ուշադիր նայեք, կարող եք տեսնել, որ հարցվածների 10%-ը, ովքեր աշխատում են 2-3 հոգուց բաղկացած վերլուծական բաժիններում, կարծում են, որ իրենք ունեն «առաջադեմ մակարդակ»:
Ի՞նչ է «առաջադեմ մակարդակը»: BI համակարգը հիանալի է աշխատում: Կա DWH և Big Data: Պարբերաբար կատարվում են A/B թեստեր։ Արտադրության մեջ կան գործող ML և DS համակարգեր։ Որոշումները կայացվում են միայն տվյալների հիման վրա։ Տվյալների մշակման և տվյալների գիտության բաժինը ընկերության առանցքայիններից մեկն է:
2-3 հոգանոց բաժանմունքով գրեթե անհնար է հասնել վերը նշված բոլորին։ Կարծում եմ, որ այս հարցման արդյունքը մի փոքր աճող ցավ է. տղաները դեռ չունեն որևէ մեկի հետ, ում հետ համեմատեն իրենց մակարդակը ավելի օբյեկտիվորեն որոշելու համար:
Ինչպես և սպասվում էր, տվյալների գիտնականներն իրենց ժամանակի մեծ մասը ծախսում են ոչ թե գերբարդ մաթեմատիկայի կամ ճարտարագիտության, այլ տվյալների նախնական մշակման, ներբեռնման և մաքրման վրա: Յուրաքանչյուր մասնագիտության դեպքում մենք տեսնում ենք նախնական մշակումը լավագույն 3-ում: Բայց մենք հազվադեպ ենք տեսնում բարդ բաներ, ինչպիսիք են ML մոդելների մշակումը կամ Big Data-ի հետ աշխատելը լավագույն եռյակում, միայն ML և DWH ինժեներների շրջանում:
Կան նաև մի քանի տխուր պատկերացումներ. Փորձագետներն իրենք են դնում իրենց առաջադրանքների 40%-ը։ Ղազախստանում մինչ այժմ միայն առաջատար միաեղջյուր ընկերությունները փորձել են մեծ տվյալների հետ աշխատելու առավելությունները և սովորել, թե ինչպես դա անել գրագետ: Նրանք շուկային հեռարձակում են, որ Big Data-ը և Machine Learning-ը հիանալի են, և երկրորդ էշելոնը հետևում է, բայց միշտ չէ, որ հասկանում է, թե ինչպես է աշխատում տվյալների հետ աշխատելը: Ուստի մենք տեսնում ենք, որ մասնագետներն իրենց առջեւ խնդիրներ են դնում, և բիզնեսը միշտ չէ, որ գիտի, թե ինչ է ուզում։
Ինձ զարմացրեց, որ մասնագետների 20%-ը նույնիսկ չգիտի, թե արդյոք իրենց ընկերությունն ունի Data Warehouse: Այո, և տվյալների բազայի կառավարման համակարգերի դեպքում ամեն ինչ այնքան էլ լավ չէ. 41%-ն օգտագործում է MySQL, իսկ ևս 34%-ը՝ PostgreSQL: Ի՞նչ կարող է սա նշանակել: Նրանք աշխատում են բավականին փոքր տվյալներով։
Պահպանման համակարգերի մասին հարցին մենք կրկին տեսնում ենք MySQL և նույնիսկ (!) Excel: Բայց սա կարող է ցույց տալ, օրինակ, որ ընկերությունների մեծ մասը պարզապես դեռևս մեծ տվյալների հետ աշխատելու խնդրանք չունի:
Այստեղ ամեն ինչ կրկին միանշանակ չէ։ Ընդհանուր առմամբ, աշխատավարձերը մի փոքր ավելի ցածր էին, քան ես սպասում էի։
Անձամբ ինձ համար դժվար է պատկերացնել ML ինժեներին, ով պատրաստ է աշխատել 200 հազար տենգեի համար, նա հավանաբար պրակտիկանտ է: Կամ նման մասնագետների իրավասությունները շատ թույլ են, կամ ընկերությունների համար դեռևս դժվար է համարժեք գնահատել Data Science-ի աշխատանքը։ Բայց թերևս սա նաև վկայում է այն մասին, որ շուկան դեռ իր հասունացման ամենասկզբում է։ Իսկ ժամանակի ընթացքում աշխատավարձերի մակարդակը կհաստատվի ավելի ադեկվատ մակարդակով։
Source: www.habr.com