De mest etterspurte ferdighetene i dataingeniørfaget

Ifølge statistikk 2019, er dataingeniør for tiden et yrke som etterspørselen vokser raskere enn noe annet. En dataingeniør spiller en kritisk rolle i en organisasjon - å skape og vedlikeholde pipelines og databaser som brukes til å behandle, transformere og lagre data. Hvilke ferdigheter trenger representanter for dette yrket først og fremst? Er listen annerledes enn det som kreves av dataforskere? Du vil lære om alt dette fra artikkelen min.

Jeg analyserte ledige stillinger for stillingen som dataingeniør slik de er i januar 2020 for å forstå hvilke teknologiske ferdigheter som er mest populære. Så sammenlignet jeg resultatene med statistikk over ledige stillinger for dataforsker-stillingen – og det dukket opp noen interessante forskjeller.

Uten mye innledning, her er de ti beste teknologiene som nevnes oftest i stillingsannonser:

De mest etterspurte ferdighetene i dataingeniørfaget

Omtale av teknologier i ledige stillinger for stillingen som dataingeniør i 2020

La oss finne ut det.

Ansvar for en dataingeniør

I dag er arbeidet som dataingeniører gjør av stor betydning for organisasjoner – det er disse personene som har ansvar for å lagre informasjon og bringe den i en slik form at andre ansatte kan jobbe med den. Dataingeniører bygger pipelines for å strømme eller batch data fra flere kilder. Rørledninger utfører deretter ekstraksjons-, transformasjons- og lasteoperasjoner (med andre ord ETL-prosesser), noe som gjør dataene mer egnet for videre bruk. Etter dette sendes dataene til analytikere og dataforskere for dypere bearbeiding. Til slutt avslutter dataene sin reise i dashboards, rapporter og maskinlæringsmodeller.

Jeg lette etter informasjon som ville tillate meg å trekke en konklusjon om hvilke teknologier som er mest etterspurt i arbeidet til en dataingeniør for øyeblikket.

fremgangsmåter

Jeg samlet informasjon fra tre jobbsøkesider − SimplyHired, Faktisk и Monster og så på hvilke søkeord som kom over i forbindelse med "dataingeniør" i tekstene til ledige stillinger rettet mot innbyggere i USA. For denne oppgaven brukte jeg to Python-biblioteker − forespørsler и Vakker suppe. Blant søkeordene inkluderte jeg både de som var inkludert i forrige liste for å analysere ledige stillinger for stillingen som dataforsker, og de som jeg valgte manuelt mens jeg leste jobbtilbud for dataingeniører. LinkedIn var ikke inkludert i kildelisten, siden jeg ble utestengt der etter mitt siste forsøk på å samle inn data.

For hvert søkeord regnet jeg ut prosentandelen treff fra det totale antallet tekster på hvert nettsted separat, og beregnet deretter gjennomsnittet for de tre kildene.

Funn

Nedenfor er de tretti tekniske datatekniske termene med høyest poengsum på alle tre jobbsider.

De mest etterspurte ferdighetene i dataingeniørfaget

Og her er de samme tallene, men presentert i tabellform:

De mest etterspurte ferdighetene i dataingeniørfaget

La oss gå i rekkefølge.

Gjennomgang av resultater

Både SQL og Python vises i mer enn to tredjedeler av jobbåpningene som er vurdert. Det er disse to teknologiene som gir mening å studere først. Python er et veldig populært programmeringsspråk som brukes til å jobbe med data, lage nettsider og skrive skript. SQL står for Structured Query Language; det involverer en standard implementert av en gruppe språk og brukes til å hente data fra relasjonsdatabaser. Den dukket opp for lenge siden og har vist seg å være svært motstandsdyktig.

Spark er nevnt i omtrent halvparten av de ledige stillingene. Apache Spark er en "enhetlig stordataanalysemotor med innebygde moduler for streaming, SQL, maskinlæring og grafbehandling." Det er spesielt populært blant de som jobber med store databaser.

AWS vises i omtrent 45 % av stillingsannonser. Det er en cloud computing-plattform produsert av Amazon; den har den største markedsandelen blant alle skyplattformer.
Deretter kommer Java og Hadoop – litt mer enn 40 % for broren deres. Java er et utbredt, kampprøvet språk som 2019 Stack Overflow Developer Survey ble tildelt tiendeplass blant språkene som forårsaker skrekk blant programmerere. I kontrast var Python det nest mest elskede språket. Java-språket drives av Oracle, og alt du trenger å vite om det kan forstås fra dette skjermbildet av den offisielle siden fra januar 2020.

De mest etterspurte ferdighetene i dataingeniørfaget

Det er som å sykle i en tidsmaskin
Apache Hadoop bruker MapReduce-programmeringsmodellen med serverklynger for big data. Nå blir denne modellen i økende grad forlatt.

Så ser vi Hive, Scala, Kafka og NoSQL – hver av disse teknologiene er nevnt i en fjerdedel av de innsendte ledige stillingene. Apache Hive er en datavarehusprogramvare som "gjør det enkelt å lese, skrive og administrere store datasett som ligger i distribuerte butikker ved hjelp av SQL." Skala – et programmeringsspråk som brukes aktivt når man jobber med big data. Spesielt ble Spark opprettet i Scala. I den allerede nevnte rangeringen av fryktede språk ligger Scala på ellevte plass. Apache Kafka – en distribuert plattform for behandling av strømmemeldinger. Veldig populær som et middel for strømming av data.

NoSQL-databaser kontraster seg med SQL. De er forskjellige ved at de er ikke-relasjonelle, ustrukturerte og horisontalt skalerbare. NoSQL har vunnet en viss popularitet, men manien etter tilnærmingen, til og med profetiene om at den vil erstatte SQL som det dominerende lagringsparadigmet, ser ut til å være over.

Sammenligning med vilkår i ledige stillinger for dataforskere

Her er tretti teknologibegreper som er mest vanlige blant datavitenskapsarbeidsgivere. Jeg skaffet denne listen på samme måte som beskrevet ovenfor for datateknikk.

De mest etterspurte ferdighetene i dataingeniørfaget

Omtaler av teknologi i ledige stillinger for stillingen som dataforsker i 2020

Hvis vi snakker om det totale antallet, sammenlignet med tidligere vurdert rekruttering, var det 28 % flere ledige stillinger (12 013 mot 9396 XNUMX). La oss se hvilke teknologier som er mindre vanlige i ledige stillinger for dataforskere enn for dataingeniører.

Mer populær innen datateknikk

Grafen nedenfor viser søkeord med en gjennomsnittlig forskjell på større enn 10 % eller mindre enn -10 %.

De mest etterspurte ferdighetene i dataingeniørfaget

De største forskjellene i søkeordfrekvens mellom dataingeniør og dataforsker

AWS viser den mest signifikante økningen: i datateknikk vises det 25 % mer regelmessig enn i datavitenskap (henholdsvis ca. 45 % og 20 % av det totale antallet ledige stillinger). Forskjellen er merkbar!

Her er de samme dataene i en litt annen presentasjon – i grafen ligger resultatene for samme søkeord i de ledige stillingene til stillingen som dataingeniør og dataforsker side om side.

De mest etterspurte ferdighetene i dataingeniørfaget

De største forskjellene i søkeordfrekvens mellom dataingeniør og dataforsker

Det nest største hoppet jeg noterte var i Spark - en dataingeniør må ofte jobbe med big data. Kafka også økt med 20 %, det vil si nesten fire ganger sammenlignet med resultatet for ledige stillinger for dataforskere. Dataoverføring er en av hovedoppgavene til en dataingeniør. Til slutt var antallet omtaler 15 % høyere innen datateknikk for Java, NoSQL, Redshift, SQL og Hadoop.

Mindre populær innen datateknikk

La oss nå se hvilke teknologier som er mindre populære i ledige stillinger innen dataingeniør.
Den kraftigste nedgangen sammenlignet med datavitenskapssektoren skjedde i R: der dukket han opp i omtrent 56 % av de ledige stillingene, her – bare i 17 %. Imponerende. R er et programmeringsspråk som er foretrukket av forskere og statistikere, og er det åttende mest fryktede språket i verden.

SAS finnes også i ledige stillinger for stillingen som dataingeniør betydelig sjeldnere - forskjellen er 14%. SAS er et proprietært språk utviklet for arbeid med statistikk og data. Interessant poeng: å dømme etter resultatene min forskning på ledige stillinger for dataforskere, har den tapt mye terreng nylig – mer enn noen annen teknologi.

Etterspurt innen både datateknikk og datavitenskap

Det skal bemerkes at åtte av de ti første posisjonene i begge settene er de samme. SQL, Python, Spark, AWS, Java, Hadoop, Hive og Scala kom på topp ti for både datateknikk og datavitenskap. I grafen nedenfor kan du se de femten mest populære teknologiene blant dataingeniørarbeidsgivere, og ved siden av dem er deres stillingsprosent for dataforskere.

De mest etterspurte ferdighetene i dataingeniørfaget

anbefalinger

Hvis du ønsker å komme inn i datateknikk, vil jeg råde deg til å mestre følgende teknologier - jeg lister dem opp i omtrentlig prioritet.

Lær SQL. Jeg lener meg til PostgreSQL fordi det er åpen kildekode, veldig populært i samfunnet og er i en vekstfase. Du kan lære hvordan du bruker språket fra boken My Memorable SQL - pilotversjonen er tilgjengelig her.

Mestre Python, selv om det ikke er på det mest hardcore nivået. My Memorable Python er designet spesielt for nybegynnere. Den kan kjøpes på Amazon, elektronisk eller fysisk kopi, ditt valg, eller last ned i pdf- eller epub-format på dette nettstedet.

Når du er kjent med Python, gå videre til pandas, et Python-bibliotek som brukes til datarensing og behandling. Hvis du har som mål å jobbe i et selskap som krever evnen til å skrive i Python (og dette er flertallet av dem), kan du være sikker på at kunnskap om pandaer vil bli antatt som standard. Jeg holder for tiden på å fullføre en introduksjonsguide for å jobbe med pandaer – du kan abonnerefor ikke å gå glipp av utgivelsesøyeblikket.

Mester AWS. Hvis du ønsker å bli dataingeniør, kan du ikke klare deg uten en skyplattform i oppbevaringen, og AWS er ​​den mest populære av dem. Kursene hjalp meg mye Linux Academyda jeg studerte datateknikk på Google Cloud, jeg tror at de også vil ha gode materialer på AWS.

Hvis du allerede har fullført hele denne listen og ønsker å vokse ytterligere i øynene til arbeidsgivere som dataingeniør, foreslår jeg at du legger til Apache Spark for å jobbe med big data. Selv om forskningen min på ledige stillinger for dataforskere viste en nedgang i interesse, dukker det fortsatt opp blant dataingeniører i nesten annenhver ledig stilling.

Endelig

Jeg håper du fant denne oversikten over de mest etterspurte teknologiene for dataingeniører nyttig. Hvis du lurer på hvordan det går med analytikerjobber, les min andre artikkel. Lykke til med engineering!

Kilde: www.habr.com

Legg til en kommentar