Pagal
Išanalizavau laisvas duomenų inžinieriaus pareigas 2020 m. sausio mėn., kad suprasčiau, kurie technologijų įgūdžiai yra populiariausi. Tada palyginau rezultatus su statistika apie laisvas duomenų mokslininko pareigas – ir išryškėjo keletas įdomių skirtumų.
Be didelės įžangos pateikiame dešimt geriausių technologijų, kurios dažniausiai minimos darbo skelbimuose:
Technologijų paminėjimas laisvose duomenų inžinieriaus pareigose 2020 m
Duomenų inžinieriaus pareigos
Šiandien organizacijoms labai svarbus darbas, kurį atlieka duomenų inžinieriai – tai žmonės, atsakingi už informacijos saugojimą ir suvedimą į tokią formą, kad su ja galėtų dirbti kiti darbuotojai. Duomenų inžinieriai kuria vamzdynus, kad galėtų srautiniu būdu arba paketais perduoti duomenis iš kelių šaltinių. Tada vamzdynai atlieka išgavimo, transformavimo ir įkėlimo operacijas (kitaip tariant, ETL procesus), todėl duomenys yra tinkamesni tolesniam naudojimui. Po to duomenys pateikiami analitikams ir duomenų mokslininkams gilesniam apdorojimui. Galiausiai, duomenys baigia savo kelionę informacijos suvestinėse, ataskaitose ir mašininio mokymosi modeliuose.
Ieškojau informacijos, kuri leistų padaryti išvadą, kokios technologijos šiuo metu yra paklausiausios duomenų inžinieriaus darbe.
Metodai
Informaciją surinkau iš trijų darbo paieškos svetainių −
Kiekvienam raktiniam žodžiui apskaičiavau procentinę atitikmenų dalį nuo bendro tekstų skaičiaus kiekvienoje svetainėje atskirai, o tada apskaičiavau trijų šaltinių vidurkį.
rezultatai
Žemiau yra trisdešimt techninių duomenų inžinerijos terminų, surinkusių aukščiausius balus visose trijose darbo vietose.
Ir čia yra tie patys skaičiai, bet pateikti lentelės pavidalu:
Eikime eilės tvarka.
Rezultatų apžvalga
Tiek SQL, tiek Python yra daugiau nei dviejuose trečdaliuose peržiūrėtų laisvų darbo vietų. Būtent šias dvi technologijas prasminga pirmiausia studijuoti.
Kibirkštis minima maždaug pusėje laisvų darbo vietų.
AWS rodomas maždaug 45 % darbo skelbimų. Tai debesų kompiuterijos platforma, kurią gamina Amazon; ji užima didžiausią rinkos dalį tarp visų debesų platformų.
Toliau ateina „Java“ ir „Hadoop“ – šiek tiek daugiau nei 40% jų broliui.
Tai tarsi važiavimas laiko mašina
Tada matome Hive, Scala, Kafka ir NoSQL – kiekviena iš šių technologijų minima ketvirtadalyje pateiktų laisvų darbo vietų. „Apache Hive“ yra duomenų saugyklos programinė įranga, kuri „padeda lengvai skaityti, rašyti ir valdyti didelius duomenų rinkinius, esančius paskirstytose parduotuvėse naudojant SQL“.
Palyginimas su duomenų mokslininko laisvų darbo vietų terminais
Čia yra trisdešimt technologijų terminų, dažniausiai pasitaikančių tarp duomenų mokslo darbdavių. Šį sąrašą gavau taip pat, kaip aprašyta aukščiau duomenų inžinerijai.
Technologijų paminėjimai laisvose duomenų mokslininko pareigose 2020 m
Jei kalbėsime apie bendrą skaičių, tai lyginant su anksčiau svarstytu įdarbinimu, laisvų darbo vietų buvo 28% daugiau (12 013 palyginti su 9396 XNUMX). Pažiūrėkime, kurios technologijos yra mažiau paplitusios laisvose duomenų mokslininkų nei duomenų inžinierių darbo vietose.
Populiaresnis duomenų inžinerijoje
Toliau pateiktoje diagramoje rodomi raktiniai žodžiai, kurių vidutinis skirtumas yra didesnis nei 10 % arba mažesnis nei -10 %.
Didžiausi raktinių žodžių dažnio skirtumai tarp duomenų inžinieriaus ir duomenų mokslininko
AWS rodo ryškiausią augimą: duomenų inžinerijoje jis pasirodo 25% reguliariau nei duomenų moksle (atitinkamai apie 45% ir 20% visų laisvų darbo vietų). Skirtumas pastebimas!
Štai tie patys duomenys šiek tiek kitokiame pristatyme – grafike greta išdėlioti rezultatai pagal tą patį raktinį žodį laisvose duomenų inžinieriaus ir duomenų mokslininko pareigose.
Didžiausi raktinių žodžių dažnio skirtumai tarp duomenų inžinieriaus ir duomenų mokslininko
Kitas didžiausias šuolis, kurį pastebėjau, buvo „Spark“ – duomenų inžinieriui dažnai tenka dirbti su dideliais duomenimis.
Mažiau populiarus duomenų inžinerijoje
Dabar pažiūrėkime, kurios technologijos yra mažiau populiarios duomenų inžinierių darbo vietose.
Didžiausias nuosmukis, palyginti su duomenų mokslo sektoriumi, įvyko m
Paklausa tiek duomenų inžinerijos, tiek duomenų mokslo srityse
Reikėtų pažymėti, kad aštuonios iš pirmųjų dešimties pozicijų abiejuose setuose yra vienodos. SQL, Python, Spark, AWS, Java, Hadoop, Hive ir Scala pateko į geriausių duomenų inžinerijos ir duomenų mokslo pramonės dešimtuką. Žemiau esančiame grafike galite pamatyti penkiolika populiariausių technologijų tarp duomenų inžinierių darbdavių, o šalia jų – duomenų mokslininkų laisvų darbo vietų rodiklis.
Rekomendacijos
Jei norite įstoti į duomenų inžineriją, patarčiau įsisavinti šias technologijas – jas išvardiju apytiksliai prioritetine tvarka.
Išmokite SQL. Aš linkstu į PostgreSQL, nes jis yra atvirojo kodo, labai populiarus bendruomenėje ir yra augimo fazėje. Galite išmokti naudoti kalbą iš knygos „Mano įsimintinas SQL“ – yra jos bandomoji versija
Įvaldykite Python, net jei ne pačiu sunkiausiu lygiu. „My Memorable Python“ sukurtas specialiai pradedantiesiems. Jį galima įsigyti adresu
Susipažinę su Python, pereikite prie pandų – Python bibliotekos, kuri naudojama duomenims valyti ir apdoroti. Jei ketinate dirbti įmonėje, kuriai reikia mokėti rašyti Python (ir tai yra dauguma), galite būti tikri, kad žinios apie pandas bus laikomos pagal nutylėjimą. Šiuo metu baigiu parengti įvadinį darbo su pandomis vadovą – galite
Meistras AWS. Jei norite tapti duomenų inžinieriumi, neapsieisite be debesų platformos saugykloje, o AWS yra populiariausias iš jų. Kursai man labai padėjo
Jei jau užpildėte visą šį sąrašą ir norite toliau augti darbdavių akyse kaip duomenų inžinierius, siūlau pridėti Apache Spark darbui su dideliais duomenimis. Nors mano tyrimas apie laisvas duomenų mokslininkų darbo vietas parodė susidomėjimo mažėjimą, tarp duomenų inžinierių jis vis dar pasirodo beveik kas antroje laisvoje vietoje.
Galiausiai
Tikiuosi, kad ši duomenų inžinieriams paklausiausių technologijų apžvalga jums buvo naudinga. Jei jums įdomu, kokia yra analitiko darbo situacija, perskaitykite
Šaltinis: www.habr.com