Dmitrij Kazakow, lider zespołu analityki danych w Grupie Kolesa, dzieli się spostrzeżeniami z pierwszej ankiety przeprowadzonej w Kazachstanie wśród specjalistów ds. danych.
na zdjęciu: Dmitrij Kazakow
Przypomnij sobie popularne zdanie, że Big Data najbardziej przypomina seks nastolatków – wszyscy o tym mówią, ale nikt nie wie, czy tak naprawdę istnieje. To samo można powiedzieć o rynku specjalistów od danych (w Kazachstanie) – panuje szum informacyjny, ale kto za nim stoi (i czy w ogóle ktoś tam stoi) nie jest do końca jasny – ani dla HR, ani dla menedżerów, ani dla sami badacze danych.
Wydaliśmy
Spojler: Tak, na pewno istnieją, ale nie wszystko jest takie proste.
Niezły wgląd. Po pierwsze, analityków danych jest więcej, niż się spodziewaliśmy. Udało nam się przeprowadzić wywiady z 300 osobami, wśród których byli nie tylko analitycy produktu, marketingu i BI, ale także inżynierowie ML i DWH, co szczególnie cieszyło. Największą grupę stanowili wszyscy, którzy nazywają siebie data science – czyli 36% respondentów. Trudno powiedzieć, czy pokrywa to zapotrzebowanie rynku, czy nie, ponieważ sam rynek dopiero się kształtuje.
Podział poziomów stanowisk jest mylący – kierowników zespołów i menedżerów jest prawie tyle samo, co juniorów. Może być tego kilka przyczyn. Przykładowo duża liczba małych zespołów 2-3 osobowych, w których liderem może być specjalista średniego lub wyższego szczebla.
Inną przyczyną może być panujący obecnie na rynku chaos dotyczący standardów w podziale ról i funkcjonalności. Liderzy zespołów czasami przydzielani są tym, którzy po prostu pracują rok lub dwa dłużej od innych, bez względu na poziom umiejętności i wiedzy. Widzimy to w rozkładzie funkcji ze względu na stanowisko – 38% menedżerów i liderów zespołów zajmuje się przetwarzaniem wstępnym, a kolejne 33% podstawową analizą statystyczną.
W tym miejscu poprosiliśmy respondentów o subiektywną ocenę poziomu analityki w swoich firmach. Jeśli przyjrzysz się uważnie, zobaczysz, że 10% respondentów pracujących w 2-3-osobowych działach analitycznych uważa, że mają oni „poziom zaawansowany”.
Co to jest „poziom zaawansowany”? System BI działa świetnie. Jest DWH i Big Data. Regularnie przeprowadzane są testy A/B. W produkcji działają działające systemy ML i DS. Decyzje podejmowane są wyłącznie na podstawie danych. Dział przetwarzania i data science jest jednym z kluczowych w firmie.
Osiągnięcie wszystkich powyższych celów przy dziale składającym się z 2-3 osób jest prawie niemożliwe. Myślę, że ten wynik ankiety to lekka zadyszka – chłopaki nie mają jeszcze z kim się porównać, żeby bardziej obiektywnie określić swój poziom.
Zgodnie z oczekiwaniami badacze danych spędzają większość czasu nie na bardzo złożonej matematyce czy inżynierii, ale na wstępnym przetwarzaniu, pobieraniu i czyszczeniu danych. W każdej specjalizacji preprocesing znajduje się w pierwszej trójce. Ale rzadko widzimy skomplikowane rzeczy, takie jak tworzenie modeli ML lub praca z Big Data w pierwszej trójce - tylko wśród inżynierów ML i DWH.
Jest też kilka smutnych spostrzeżeń. Eksperci sami wyznaczają 40% swoich zadań. W Kazachstanie jak dotąd tylko czołowe firmy typu „jednorożec” próbowały korzyści płynących z pracy z dużymi zbiorami danych i nauczyły się, jak robić to kompetentnie. Rozgłaszają na rynek, że Big Data i Machine Learning są fajne, a drugi szczebel podąża za nimi, ale nie zawsze rozumie, jak działa praca z danymi. Widzimy więc, że specjaliści stawiają sobie zadania, a firmy nie zawsze wiedzą, czego chcą.
Zaskoczyło mnie, że 20% specjalistów nawet nie wie, czy ich firma posiada Hurtownię Danych. Tak, a z systemami zarządzania bazami danych nie wszystko jest tak dobrze - 41% korzysta z MySQL, a kolejne 34% z PostgreSQL. Co to może oznaczać? Pracują raczej z małymi danymi.
W pytaniu o systemy przechowywania danych ponownie widzimy MySQL, a nawet (!) Excel. Może to jednak oznaczać na przykład, że większość firm po prostu nie ma jeszcze zapotrzebowania na pracę z dużymi zbiorami danych.
Tutaj znowu wszystko jest niejednoznaczne. Ogólnie pensje były nieco niższe niż się spodziewałem.
Osobiście ciężko mi sobie wyobrazić inżyniera ML, który jest gotowy pracować za 200 tys. tenge – prawdopodobnie jest stażystą. Albo kompetencje takich specjalistów są bardzo słabe, albo firmom nadal trudno jest odpowiednio ocenić pracę Data Science. Ale być może oznacza to również, że rynek jest jeszcze na samym początku swojego dojrzewania. Z biegiem czasu poziom wynagrodzeń zostanie ustalony na bardziej adekwatnym poziomie.
Źródło: www.habr.com