Дзмітрый Казакоў, Data Analytics Team Lead у Kolesa Group, дзеліцца інсайт з першага казахстанскага апытання спецыялістаў па працы з дадзенымі.
На здымку: Зміцер Казакоў
Памятайце папулярную фразу аб тым, што Big Data больш за ўсё нагадвае падлеткавы сэкс - усё пра яго кажуць, але ніхто не ведае, ці ёсць ён на самай справе. Тое ж самае можна было сказаць і аб рынку спецыялістаў па працы з дадзенымі (у Казахстане) - хайп ёсць, а хто за ім стаіць (і ці ёсць там наогул хоць хтосьці), не было да канца зразумела - ні эйчарам, ні менеджэрам , ні самім дата-саентыстам.
Мы правялі
спойлер: так, яны сапраўды існуюць, але ўсё не так адназначна.
Прыемны інсайт. Па-першае, адмыслоўцаў па працы з дадзенымі больш чым мы чакалі. Нам удалося апытаць 300 чалавек, сярод якіх ёсць не толькі product-, marketing- і BI-аналітыкі, але і ML-, DWH-інжынеры, што асабліва парадавала. У самай вялікай групе апынуліся ўсе тыя, хто называе сябе дата-саенцістамі - гэта 36% апытаных. Пакрывае гэта запыт рынку ці не, сказаць складана, таму што сам рынак толькі фармуецца.
Бянтэжыць размеркаванне ўзроўняў пасады - тымлідаў і кіраўнікоў амаль столькі ж, колькі джунаў. Прычын таму можа быць некалькі. Напрыклад, вялікая колькасць маленькіх каманд па 2-3 чалавекі, у якіх кіраўніком можа быць спецыяліст узроўню мідла ці сеніёра.
Яшчэ адной прычынай можа быць пануючы пакуль на рынку хаос па частцы стандартаў у размеркаванні роляў і функцыяналу. Тымлідамі часам прызначаюць тых, хто проста працуе на год-два даўжэй за іншых, без прывязкі да ўзроўню скіла і ведаў. Мы бачым гэта і ў размеркаванні функцый па пасадах - 38% кіраўнікоў і тымлідаў займаюцца перадапрацоўкай і яшчэ 33% базавым стат.аналізам.
Тут мы папрасілі рэспандэнтаў суб'ектыўна ацаніць узровень аналітыкі ў іх кампаніях. Калі дагледзецца, можна ўбачыць, што 10% рэспандэнтаў, якія працуюць у аддзелах аналітыкі з 2-3 чалавек, лічаць што ў іх "прасунуты ўзровень".
А што такое "прасунуты ўзровень"? BI-сістэма працуе выдатна. Ёсць DWH і Big Data. Рэгулярна праводзяцца A/B-тэсты. Ёсць якія працуюць сістэмы ML і DS у production. Рашэнні прымаюцца толькі па дадзеных. Аддзел працы з дадзенымі і Data Science - адзін з ключавых у кампаніі.
Усяго пералічанага практычна немагчыма дабіцца аддзелам з 2-3 чалавек. Лічу, што такі вынік апытання - гэта невялікая хвароба росту - рабятам пакуль няма з кім сябе параўноўваць, каб вызначыць свой узровень больш аб'ектыўна.
Чакана, больш за ўсё часу адмыслоўцы па працы з дадзенымі марнуюць не на супер складаную матэматыку ці інжынерыю, а на перадапрацоўку, выгрузку, ачыстку дадзеных. У кожнай спецыялізацыі мы бачым перадапрацоўку ў топ-3. А вось складаныя рэчы тыпу распрацоўкі ML-мадэляў ці працы з Big Data, у топ-3 мы бачым вельмі рэдка толькі ў ML- і DWH-інжынераў.
Ёсць і парачка сумных інсайтаў. 40 працэнтаў задач спецыялісты ставяць сабе самастойна. У Казахстане пакуль толькі топавыя кампаніі-аднарогі рассмакавалі перавагі працы з вялікімі дадзенымі і навучыліся рабіць гэта пісьменна. Яны транслююць на рынак, што Big Data і Machine Learning гэта крута, а другі эшалон цягнецца следам, але далёка не заўсёды разумее, як уладкованая праца з дадзенымі. Таму мы бачым, што задачы спецыялісты сабе ставяць самі, а бізнэс не заўсёды ведае, чаго жадае.
Здзівіла, што 20% адмыслоўцаў наогул не ведаюць, ці ёсць у іх кампаніі Data Warehouse. Так, і з сістэмамі кіравання базамі дадзеных не ўсё так добра - 41% выкарыстоўваюць MySQL, а яшчэ 34% - PostgreSQL. Пра што гэта можа казаць? Яны працуюць хутчэй са small data.
У пытанні пра сістэмы захоўвання мы зноў бачым MySQL і нават (!) Excel. Але гэта можа казаць, напрыклад, аб тым, што ў большасці кампаній папросту яшчэ няма запыту на працу з вялікімі дадзенымі.
Тут усё зноў неадназначна. У цэлым заробкі апынуліся крыху ніжэй, чым я чакаў.
Асабіста мне складана ўявіць ML-інжынера, які гатовы працаваць за 200 тысяч тэнге - напэўна, гэта стажор. Або, кампетэнцыі ў такіх адмыслоўцаў зусім слабыя, альбо кампаніям пакуль складана адэкватна ацаніць працу Data Science. Але магчыма гэта таксама гаворыць аб тым, што рынак пакуль у самым пачатку свайго сталення. І з часам узровень заробкаў усталюецца на больш адэкватным узроўні.
Крыніца: habr.com