Дмитрий Казаков, ръководител на екипа за анализ на данни в Kolesa Group, споделя прозрения от първото казахстанско проучване на специалисти по данни.
На снимката: Дмитрий Казаков
Спомнете си популярната фраза, че Big Data прилича най-много на тийнейджърския секс – всички говорят за него, но никой не знае дали наистина съществува. Същото може да се каже и за пазара на специалисти по данни (в Казахстан) - шум има, но кой стои зад него (и дали изобщо има някой там) не беше напълно ясен - нито на HR, нито на мениджърите, нито на самите учени по данни.
Похарчихме
спойлер: Да, те определено съществуват, но всичко не е толкова просто.
Хубаво прозрение. Първо, има повече учени за данни, отколкото очаквахме. Успяхме да интервюираме 300 души, сред които не само продуктови, маркетингови и BI анализатори, но и ML и DWH инженери, което беше особено приятно. Най-голямата група включва всички, които наричат себе си учени по данни – това са 36% от анкетираните. Трудно е да се каже дали това покрива търсенето на пазара или не, защото самият пазар тепърва се формира.
Разпределението на работните нива е объркващо - има почти толкова много ръководители на екипи и мениджъри, колкото и младши. Може да има няколко причини за това. Например, голям брой малки екипи от 2-3 души, в които лидерът може да бъде специалист от средно или висше ниво.
Друга причина може да е хаосът, който в момента цари на пазара по отношение на стандартите в разпределението на ролите и функционалността. Ръководителите на екипи понякога се възлагат на онези, които просто работят година или две по-дълго от останалите, без да се има предвид нивото на умения и знания. Виждаме това в разпределението на функциите по позиции – 38% от мениджърите и ръководителите на екипи са ангажирани с предварителна обработка и други 33% с основен статистически анализ.
Тук помолихме респондентите да оценят субективно нивото на анализи в техните компании. Ако се вгледате внимателно, можете да видите, че 10% от респондентите, които работят в аналитични отдели от 2-3 души, вярват, че имат „ниво за напреднали“.
Какво е „ниво за напреднали“? BI системата работи отлично. Има DWH и Big Data. A/B тестовете се провеждат редовно. Има работещи ML и DS системи в производство. Решенията се вземат само въз основа на данни. Отделът за обработка на данни и data science е един от ключовите в компанията.
Почти невъзможно е да постигнете всичко изброено с отдел от 2-3 души. Мисля, че този резултат от проучването е лек проблем за растеж - момчетата все още нямат с кого да се сравняват, за да определят нивото си по-обективно.
Както се очаква, учените по данни прекарват по-голямата част от времето си не в супер сложна математика или инженерство, а в предварителна обработка, изтегляне и почистване на данни. Във всяка специализация виждаме предварителна обработка в топ 3. Но рядко виждаме сложни неща като разработване на ML модели или работа с Big Data в топ 3 - само сред ML и DWH инженерите.
Има и няколко тъжни прозрения. Експертите сами си поставят 40% от задачите. В Казахстан досега само водещи компании за еднорози са опитали предимствата на работата с големи данни и са се научили как да го правят компетентно. Те излъчват на пазара, че Big Data и Machine Learning са готини, а вторият ешелон ги следва, но не винаги разбира как работи работата с данни. Затова виждаме, че специалистите сами си поставят задачи, а бизнесът не винаги знае какво иска.
Бях изненадан, че 20% от специалистите дори не знаят дали компанията им има Data Warehouse. Да, и със системите за управление на бази данни не всичко е толкова добро - 41% използват MySQL, а други 34% използват PostgreSQL. Какво може да означава това? Те работят по-скоро с малки данни.
Във въпроса за системите за съхранение отново виждаме MySQL и дори (!) Excel. Но това може да означава например, че повечето компании просто все още нямат заявка за работа с големи данни.
Тук всичко отново е двусмислено. Като цяло заплатите бяха малко по-ниски, отколкото очаквах.
Лично на мен ми е трудно да си представя ML инженер, който е готов да работи за 200 хиляди тенге - вероятно е стажант. Или компетенциите на такива специалисти са много слаби, или все още е трудно за компаниите да оценят адекватно работата на Data Science. Но може би това също показва, че пазарът все още е в самото начало на своето съзряване. И с течение на времето нивото на заплатите ще се установи на по-адекватно ниво.
Източник: www.habr.com