Дмитри Казаков, вођа тима за аналитику података у Колеса Групи, дели увиде из првог казахстанског истраживања стручњака за податке.
На фотографији: Дмитриј Казаков
Запамтите популарну фразу да Биг Дата највише личи на тинејџерски секс – сви причају о томе, али нико не зна да ли заиста постоји. Исто би се могло рећи и за тржиште специјалиста за податке (у Казахстану) – постоји хајка, али ко стоји иза тога (и да ли ту уопште постоји неко) није било потпуно јасно – ни ХР, ни менаџерима, ни сами научници података.
Провели смо
Спојлер: Да, дефинитивно постоје, али није све тако једноставно.
Добар увид. Прво, има више научника за податке него што смо очекивали. Успели смо да интервјуишемо 300 људи, међу којима нису били само аналитичари производа, маркетинга и БИ, већ и МЛ и ДВХ инжењери, што је посебно обрадовало. Највећу групу чинили су сви они који себе називају научницима података – то је 36% испитаника. Тешко је рећи да ли ово покрива потражњу тржишта или не, јер се само тржиште тек формира.
Расподела нивоа послова је збуњујућа – има скоро исто толико вођа тимова и менаџера колико и јуниора. За то може бити неколико разлога. На пример, велики број малих тимова од 2-3 особе, у којима лидер може бити специјалиста средњег или вишег нивоа.
Други разлог може бити хаос који тренутно влада на тржишту у погледу стандарда у расподели улога и функционалности. Водство тима се понекад додељује онима који једноставно раде годину или две дуже од других, без обзира на ниво вештина и знања. То видимо у расподели функција по позицијама – 38% менаџера и вођа тимова је ангажовано у претходној обради и још 33% у основној статистичкој анализи.
Овде смо замолили испитанике да субјективно процене ниво аналитике у својим компанијама. Ако боље погледате, можете видети да 10% испитаника који раде у аналитичким одељењима од 2-3 особе верује да имају „напредни ниво“.
Шта је „напредни ниво“? БИ систем ради одлично. Постоје ДВХ и Биг Дата. А/Б тестови се спроводе редовно. У производњи су радни МЛ и ДС системи. Одлуке се доносе само на основу података. Одељење за обраду података и науке о подацима једно је од кључних у компанији.
Готово је немогуће постићи све наведено са одељењем од 2-3 човека. Мислим да је резултат ове анкете благе муке - момци још немају са ким да се пореде како би објективније одредили свој ниво.
Као што се и очекивало, научници података проводе већину свог времена не на супер сложену математику или инжењеринг, већ на претходну обраду, преузимање и чишћење података. У свакој специјализацији видимо претходну обраду у топ 3. Али ретко видимо сложене ствари попут развоја МЛ модела или рада са великим подацима у топ 3 – само међу инжењерима МЛ и ДВХ.
Има и пар тужних увида. Стручњаци сами постављају 40% својих задатака. У Казахстану су до сада само врхунске компаније за једнорог испробале предности рада са великим подацима и научиле како то да раде компетентно. Они преносе тржишту да су велики подаци и машинско учење кул, а други ешалон следи иза, али не разуме увек како рад са подацима функционише. Дакле, видимо да стручњаци постављају себи задатке, а предузећа не знају увек шта желе.
Изненадило ме је да 20% специјалиста чак и не зна да ли њихова компанија има складиште података. Да, и са системима за управљање базама података није све тако добро - 41% користи МиСКЛ, а још 34% користи ПостгреСКЛ. Шта би ово могло значити? Радије раде са малим подацима.
У питању о системима за складиштење, поново видимо МиСКЛ и чак (!) Екцел. Али то може указивати, на пример, да већина компанија једноставно још увек нема захтев за рад са великим подацима.
Овде је опет све двосмислено. Генерално, плате су биле нешто мање него што сам очекивао.
Лично, тешко ми је да замислим МЛ инжењера који је спреман да ради за 200 хиљада тенге - вероватно је приправник. Или су компетенције таквих стручњака веома слабе, или је компанијама и даље тешко да адекватно оцене рад Дата Сциенце-а. Али можда и то указује да је тржиште још увек на самом почетку свог сазревања. А временом ће се ниво плата успоставити на адекватнијем нивоу.
Извор: ввв.хабр.цом