Dmitry Kazakov, Udhëheqësi i Ekipit të Analitikës së të Dhënave në Kolesa Group, ndan njohuri nga sondazhi i parë i Kazakistanit me profesionistët e të dhënave.

Në foto: Dmitry Kazakov
Mos harroni frazën popullore se Big Data është më shumë si seksi adoleshent - të gjithë flasin për të, por askush nuk e di nëse ekziston në të vërtetë. E njëjta gjë mund të thuhet për tregun për specialistët e të dhënave (në Kazakistan) - ka zhurmë, por kush qëndron pas saj (dhe nëse ka ndonjë fare atje) nuk ishte plotësisht e qartë - as për HR, as për menaxherët, as për vetë shkencëtarët e të dhënave.
Ne harxhuam , në të cilin ata anketuan më shumë se 300 specialistë për pagat, funksionet, aftësitë, mjetet e tyre dhe shumë më tepër.
Spoiler: Po, ato patjetër ekzistojnë, por gjithçka nuk është aq e thjeshtë.
Një pasqyrë e bukur. Së pari, ka më shumë shkencëtarë të të dhënave nga sa prisnim. Arritëm të intervistonim 300 persona, mes të cilëve nuk ishin vetëm analistë të produkteve, marketingut dhe BI, por edhe inxhinierë ML dhe DWH, gjë që ishte veçanërisht e këndshme. Grupi më i madh përfshinte të gjithë ata që e quajnë veten shkencëtarë të të dhënave - kjo është 36% e të anketuarve. Është e vështirë të thuhet nëse kjo mbulon kërkesën e tregut apo jo, sepse vetë tregu sapo po formohet.

Shpërndarja e niveleve të vendeve të punës është konfuze - ka pothuajse po aq drejtues ekipesh dhe menaxherë sa të rinj. Mund të ketë disa arsye për këtë. Për shembull, një numër i madh ekipesh të vogla prej 2-3 personash, në të cilat drejtuesi mund të jetë një specialist i nivelit të mesëm ose të lartë.

Një arsye tjetër mund të jetë kaosi që mbretëron aktualisht në treg lidhur me standardet në shpërndarjen e roleve dhe funksionalitetin. Drejtuesit e ekipit ndonjëherë u caktohen atyre që thjesht punojnë një ose dy vjet më shumë se të tjerët, pa iu referuar nivelit të aftësive dhe njohurive. Këtë e shohim në shpërndarjen e funksioneve sipas pozicioneve - 38% e menaxherëve dhe drejtuesve të ekipit janë të angazhuar në para-përpunim dhe 33% të tjerë në analizën bazë statistikore.


Këtu kemi kërkuar nga të anketuarit që të vlerësojnë në mënyrë subjektive nivelin e analitikës në kompanitë e tyre. Nëse shikoni nga afër, mund të shihni se 10% e të anketuarve që punojnë në departamentet e analitikës prej 2-3 personash besojnë se kanë një "nivel të avancuar".
Çfarë është "niveli i avancuar"? Sistemi BI funksionon shkëlqyeshëm. Ka DWH dhe Big Data. Testet A/B kryhen rregullisht. Ka sisteme ML dhe DS që funksionojnë në prodhim. Vendimet merren vetëm në bazë të të dhënave. Departamenti i përpunimit të të dhënave dhe shkencës së të dhënave është një nga ato kyçe në kompani.
Është pothuajse e pamundur të arrihen të gjitha sa më sipër me një departament prej 2-3 personash. Unë mendoj se rezultati i këtij sondazhi është një dhimbje e lehtë në rritje - djemtë nuk kanë ende me kë të krahasojnë veten për të përcaktuar nivelin e tyre në mënyrë më objektive.


Siç pritej, shkencëtarët e të dhënave nuk shpenzojnë pjesën më të madhe të kohës në matematikë ose inxhinieri super komplekse, por në parapërpunim, shkarkim dhe pastrim të të dhënave. Në çdo specializim shohim parapërpunimin në 3-shen e parë. Por ne rrallë shohim gjëra komplekse si zhvillimi i modeleve ML ose puna me Big Data në 3-shen e parë - vetëm midis inxhinierëve ML dhe DWH.

Ka edhe disa njohuri të trishtueshme. Ekspertët vendosin vetë 40% të detyrave të tyre. Në Kazakistan, deri më tani vetëm kompanitë kryesore të njëbrirëshit kanë provuar përfitimet e punës me të dhëna të mëdha dhe kanë mësuar se si ta bëjnë atë me kompetencë. Ata transmetojnë në treg se Big Data dhe Machine Learning janë të lezetshme, dhe skaloni i dytë pason pas, por jo gjithmonë e kupton se si funksionon puna me të dhënat. Prandaj, shohim që specialistët vendosin detyra për vete dhe bizneset jo gjithmonë e dinë se çfarë duan.

U habita kur mësova se 20% e specialistëve as nuk e dinë nëse kompania e tyre ka një Depo të të Dhënave. Dhe me sistemet menaxhimi i bazës së të dhënave Jo gjithçka është aq mirë – 41% përdorin MySQL dhe 34% të tjera përdorin PostgreSQL. Çfarë do të thotë kjo? Ata punojnë më shumë me të dhëna të vogla.

Në pyetjen në lidhje me sistemet e ruajtjes, ne përsëri shohim MySQL dhe madje (!) Excel. Por kjo mund të tregojë, për shembull, se shumica e kompanive thjesht nuk kanë ende një kërkesë për të punuar me të dhëna të mëdha.

Këtu gjithçka është përsëri e paqartë. Në përgjithësi, pagat ishin pak më të ulëta nga sa prisja.

Personalisht, është e vështirë për mua të imagjinoj një inxhinier ML i cili është gati të punojë për 200 mijë tenge - ai ndoshta është një praktikant. Ose kompetencat e specialistëve të tillë janë shumë të dobëta, ose është ende e vështirë për kompanitë që të vlerësojnë në mënyrë adekuate punën e Data Science. Por ndoshta edhe kjo tregon se tregu është ende në fillimet e maturimit. Dhe me kalimin e kohës, niveli i pagave do të vendoset në një nivel më adekuat.
Burimi: www.habr.com
