Paklausiausi duomenų inžinieriaus profesijos įgūdžiai

Pagal 2019 metų statistika, duomenų inžinierius šiuo metu yra profesija, kurios paklausa auga greičiau nei bet kurios kitos. Duomenų inžinierius atlieka labai svarbų vaidmenį organizacijoje – kuria ir prižiūri dujotiekius ir duomenų bazes, kurios naudojamos duomenims apdoroti, transformuoti ir saugoti. Kokių įgūdžių pirmiausia reikia šios profesijos atstovams? Ar sąrašas skiriasi nuo to, ko reikalaujama duomenų mokslininkams? Apie visa tai sužinosite iš mano straipsnio.

Išanalizavau laisvas duomenų inžinieriaus pareigas 2020 m. sausio mėn., kad suprasčiau, kurie technologijų įgūdžiai yra populiariausi. Tada palyginau rezultatus su statistika apie laisvas duomenų mokslininko pareigas – ir išryškėjo keletas įdomių skirtumų.

Be didelės įžangos pateikiame dešimt geriausių technologijų, kurios dažniausiai minimos darbo skelbimuose:

Paklausiausi duomenų inžinieriaus profesijos įgūdžiai

Technologijų paminėjimas laisvose duomenų inžinieriaus pareigose 2020 m

Paimkime.

Duomenų inžinieriaus pareigos

Šiandien organizacijoms labai svarbus darbas, kurį atlieka duomenų inžinieriai – tai žmonės, atsakingi už informacijos saugojimą ir suvedimą į tokią formą, kad su ja galėtų dirbti kiti darbuotojai. Duomenų inžinieriai kuria vamzdynus, kad galėtų srautiniu būdu arba paketais perduoti duomenis iš kelių šaltinių. Tada vamzdynai atlieka išgavimo, transformavimo ir įkėlimo operacijas (kitaip tariant, ETL procesus), todėl duomenys yra tinkamesni tolesniam naudojimui. Po to duomenys pateikiami analitikams ir duomenų mokslininkams gilesniam apdorojimui. Galiausiai, duomenys baigia savo kelionę informacijos suvestinėse, ataskaitose ir mašininio mokymosi modeliuose.

Ieškojau informacijos, kuri leistų padaryti išvadą, kokios technologijos šiuo metu yra paklausiausios duomenų inžinieriaus darbe.

Metodai

Informaciją surinkau iš trijų darbo paieškos svetainių − „SimplyHired“, iš tikrųjų и pabaisa ir pažvelgė į tai, kokie raktiniai žodžiai buvo rasti kartu su „duomenų inžinieriumi“ JAV gyventojams skirtuose laisvų darbo vietų tekstuose. Šiai užduočiai atlikti naudoju dvi Python bibliotekas − prašymai и Graži sriuba. Tarp raktinių žodžių įtraukiau ir tuos, kurie buvo įtraukti į ankstesnį sąrašą, analizuojant laisvas duomenų mokslininko pareigas, ir tuos, kuriuos rankiniu būdu pasirinkau skaitydamas duomenų inžinierių darbo pasiūlymus. LinkedIn nebuvo įtrauktas į šaltinių sąrašą, nes po paskutinio bandymo rinkti duomenis buvau ten uždraustas.

Kiekvienam raktiniam žodžiui apskaičiavau procentinę atitikmenų dalį nuo bendro tekstų skaičiaus kiekvienoje svetainėje atskirai, o tada apskaičiavau trijų šaltinių vidurkį.

rezultatai

Žemiau yra trisdešimt techninių duomenų inžinerijos terminų, surinkusių aukščiausius balus visose trijose darbo vietose.

Paklausiausi duomenų inžinieriaus profesijos įgūdžiai

Ir čia yra tie patys skaičiai, bet pateikti lentelės pavidalu:

Paklausiausi duomenų inžinieriaus profesijos įgūdžiai

Eikime eilės tvarka.

Rezultatų apžvalga

Tiek SQL, tiek Python yra daugiau nei dviejuose trečdaliuose peržiūrėtų laisvų darbo vietų. Būtent šias dvi technologijas prasminga pirmiausia studijuoti. Pitonas yra labai populiari programavimo kalba, naudojama dirbant su duomenimis, kuriant svetaines ir rašant scenarijus. SQL reiškia struktūrinės užklausos kalbą; Tai apima standartą, įdiegtą kalbų grupės, ir yra naudojamas duomenims iš reliacinių duomenų bazių gauti. Jis pasirodė seniai ir pasirodė esąs labai atsparus.

Kibirkštis minima maždaug pusėje laisvų darbo vietų. Apache Spark yra „vieningas didelių duomenų analizės variklis su integruotais srautinio perdavimo, SQL, mašininio mokymosi ir grafikų apdorojimo moduliais“. Jis ypač populiarus tarp tų, kurie dirba su didelėmis duomenų bazėmis.

AWS rodomas maždaug 45 % darbo skelbimų. Tai debesų kompiuterijos platforma, kurią gamina Amazon; ji užima didžiausią rinkos dalį tarp visų debesų platformų.
Toliau ateina „Java“ ir „Hadoop“ – šiek tiek daugiau nei 40% jų broliui. Java yra plačiai vartojama, kovose patikrinta kalba 2019 m. „Stack Overflow“ kūrėjų apklausa buvo įvertinta dešimta vieta tarp kalbų, kurios sukelia siaubą tarp programuotojų. Priešingai, Python buvo antra labiausiai mėgstama kalba. „Java“ kalbą valdo „Oracle“, o viską, ką apie ją reikia žinoti, galite suprasti iš šios 2020 m. sausio mėn. oficialaus puslapio ekrano kopijos.

Paklausiausi duomenų inžinieriaus profesijos įgūdžiai

Tai tarsi važiavimas laiko mašina
Apache Hadoopas naudoja MapReduce programavimo modelį su serverių klasteriais dideliems duomenims. Dabar šio modelio vis dažniau atsisakoma.

Tada matome Hive, Scala, Kafka ir NoSQL – kiekviena iš šių technologijų minima ketvirtadalyje pateiktų laisvų darbo vietų. „Apache Hive“ yra duomenų saugyklos programinė įranga, kuri „padeda lengvai skaityti, rašyti ir valdyti didelius duomenų rinkinius, esančius paskirstytose parduotuvėse naudojant SQL“. Scala – programavimo kalba, kuri aktyviai naudojama dirbant su dideliais duomenimis. Visų pirma „Spark“ buvo sukurta „Scala“. Jau minėtame baimingų kalbų reitinge „Scala“ užima vienuoliktą vietą. Apache Kafka – paskirstyta platforma srautiniams pranešimams apdoroti. Labai populiari kaip duomenų srautinio perdavimo priemonė.

NoSQL duomenų bazės kontrastuoja su SQL. Jie skiriasi tuo, kad yra nesusiję, nestruktūrizuoti ir horizontaliai keičiami. NoSQL įgijo tam tikrą populiarumą, bet panašu, kad požiūrio pamišimas, net iki pranašystės, kad jis pakeis SQL kaip dominuojančią saugojimo paradigmą, baigėsi.

Palyginimas su duomenų mokslininko laisvų darbo vietų terminais

Čia yra trisdešimt technologijų terminų, dažniausiai pasitaikančių tarp duomenų mokslo darbdavių. Šį sąrašą gavau taip pat, kaip aprašyta aukščiau duomenų inžinerijai.

Paklausiausi duomenų inžinieriaus profesijos įgūdžiai

Technologijų paminėjimai laisvose duomenų mokslininko pareigose 2020 m

Jei kalbėsime apie bendrą skaičių, tai lyginant su anksčiau svarstytu įdarbinimu, laisvų darbo vietų buvo 28% daugiau (12 013 palyginti su 9396 XNUMX). Pažiūrėkime, kurios technologijos yra mažiau paplitusios laisvose duomenų mokslininkų nei duomenų inžinierių darbo vietose.

Populiaresnis duomenų inžinerijoje

Toliau pateiktoje diagramoje rodomi raktiniai žodžiai, kurių vidutinis skirtumas yra didesnis nei 10 % arba mažesnis nei -10 %.

Paklausiausi duomenų inžinieriaus profesijos įgūdžiai

Didžiausi raktinių žodžių dažnio skirtumai tarp duomenų inžinieriaus ir duomenų mokslininko

AWS rodo ryškiausią augimą: duomenų inžinerijoje jis pasirodo 25% reguliariau nei duomenų moksle (atitinkamai apie 45% ir 20% visų laisvų darbo vietų). Skirtumas pastebimas!

Štai tie patys duomenys šiek tiek kitokiame pristatyme – grafike greta išdėlioti rezultatai pagal tą patį raktinį žodį laisvose duomenų inžinieriaus ir duomenų mokslininko pareigose.

Paklausiausi duomenų inžinieriaus profesijos įgūdžiai

Didžiausi raktinių žodžių dažnio skirtumai tarp duomenų inžinieriaus ir duomenų mokslininko

Kitas didžiausias šuolis, kurį pastebėjau, buvo „Spark“ – duomenų inžinieriui dažnai tenka dirbti su dideliais duomenimis. Kafka taip pat padidėjo 20%, tai yra beveik keturis kartus, palyginti su laisvų duomenų mokslininkų darbo vietų rezultatu. Duomenų perdavimas yra viena iš pagrindinių duomenų inžinieriaus pareigų. Galiausiai paminėjimų skaičius buvo 15% didesnis duomenų inžinerijos srityje, skirtoje Java, NoSQL, Redshift, SQL ir Hadoop.

Mažiau populiarus duomenų inžinerijoje

Dabar pažiūrėkime, kurios technologijos yra mažiau populiarios duomenų inžinierių darbo vietose.
Didžiausias nuosmukis, palyginti su duomenų mokslo sektoriumi, įvyko m R: ten jis atsirado maždaug 56% laisvų darbo vietų, čia - tik 17%. Įspūdingas. R yra programavimo kalba, kurią mėgsta mokslininkai ir statistikai, ir ji yra aštunta labiausiai baiminga kalba pasaulyje.

SAS taip pat laisvose duomenų inžinieriaus pareigose aptinkama žymiai rečiau – skirtumas siekia 14%. SAS yra patentuota kalba, skirta darbui su statistika ir duomenimis. Įdomus dalykas: sprendžiant iš rezultatų mano tyrimas dėl darbo vietų duomenų mokslininkams, pastaruoju metu ji prarado daug vietos – labiau nei bet kuri kita technologija.

Paklausa tiek duomenų inžinerijos, tiek duomenų mokslo srityse

Reikėtų pažymėti, kad aštuonios iš pirmųjų dešimties pozicijų abiejuose setuose yra vienodos. SQL, Python, Spark, AWS, Java, Hadoop, Hive ir Scala pateko į geriausių duomenų inžinerijos ir duomenų mokslo pramonės dešimtuką. Žemiau esančiame grafike galite pamatyti penkiolika populiariausių technologijų tarp duomenų inžinierių darbdavių, o šalia jų – duomenų mokslininkų laisvų darbo vietų rodiklis.

Paklausiausi duomenų inžinieriaus profesijos įgūdžiai

Rekomendacijos

Jei norite įstoti į duomenų inžineriją, patarčiau įsisavinti šias technologijas – jas išvardiju apytiksliai prioritetine tvarka.

Išmokite SQL. Aš linkstu į PostgreSQL, nes jis yra atvirojo kodo, labai populiarus bendruomenėje ir yra augimo fazėje. Galite išmokti naudoti kalbą iš knygos „Mano įsimintinas SQL“ – yra jos bandomoji versija čia.

Įvaldykite Python, net jei ne pačiu sunkiausiu lygiu. „My Memorable Python“ sukurtas specialiai pradedantiesiems. Jį galima įsigyti adresu Amazonė, elektroninė ar fizinė kopija, jūsų pasirinkimas, arba atsisiųskite pdf arba epub formatu šioje svetainėje.

Susipažinę su Python, pereikite prie pandų – Python bibliotekos, kuri naudojama duomenims valyti ir apdoroti. Jei ketinate dirbti įmonėje, kuriai reikia mokėti rašyti Python (ir tai yra dauguma), galite būti tikri, kad žinios apie pandas bus laikomos pagal nutylėjimą. Šiuo metu baigiu parengti įvadinį darbo su pandomis vadovą – galite užsiprenumeruokitekad nepraleistų paleidimo akimirkos.

Meistras AWS. Jei norite tapti duomenų inžinieriumi, neapsieisite be debesų platformos saugykloje, o AWS yra populiariausias iš jų. Kursai man labai padėjo Linux akademijakai mokiausi duomenų inžinerija „Google Cloud“., manau, kad jie taip pat turės gerų medžiagų AWS.

Jei jau užpildėte visą šį sąrašą ir norite toliau augti darbdavių akyse kaip duomenų inžinierius, siūlau pridėti Apache Spark darbui su dideliais duomenimis. Nors mano tyrimas apie laisvas duomenų mokslininkų darbo vietas parodė susidomėjimo mažėjimą, tarp duomenų inžinierių jis vis dar pasirodo beveik kas antroje laisvoje vietoje.

Galiausiai

Tikiuosi, kad ši duomenų inžinieriams paklausiausių technologijų apžvalga jums buvo naudinga. Jei jums įdomu, kokia yra analitiko darbo situacija, perskaitykite kitas mano straipsnis. Laimingos inžinerijos!

Šaltinis: www.habr.com

Добавить комментарий