Ifølge
Jeg analyserte ledige stillinger for stillingen som dataingeniør slik de er i januar 2020 for å forstå hvilke teknologiske ferdigheter som er mest populære. Så sammenlignet jeg resultatene med statistikk over ledige stillinger for dataforsker-stillingen – og det dukket opp noen interessante forskjeller.
Uten mye innledning, her er de ti beste teknologiene som nevnes oftest i stillingsannonser:
Omtale av teknologier i ledige stillinger for stillingen som dataingeniør i 2020
Ansvar for en dataingeniør
I dag er arbeidet som dataingeniører gjør av stor betydning for organisasjoner – det er disse personene som har ansvar for å lagre informasjon og bringe den i en slik form at andre ansatte kan jobbe med den. Dataingeniører bygger pipelines for å strømme eller batch data fra flere kilder. Rørledninger utfører deretter ekstraksjons-, transformasjons- og lasteoperasjoner (med andre ord ETL-prosesser), noe som gjør dataene mer egnet for videre bruk. Etter dette sendes dataene til analytikere og dataforskere for dypere bearbeiding. Til slutt avslutter dataene sin reise i dashboards, rapporter og maskinlæringsmodeller.
Jeg lette etter informasjon som ville tillate meg å trekke en konklusjon om hvilke teknologier som er mest etterspurt i arbeidet til en dataingeniør for øyeblikket.
fremgangsmåter
Jeg samlet informasjon fra tre jobbsøkesider −
For hvert søkeord regnet jeg ut prosentandelen treff fra det totale antallet tekster på hvert nettsted separat, og beregnet deretter gjennomsnittet for de tre kildene.
Funn
Nedenfor er de tretti tekniske datatekniske termene med høyest poengsum på alle tre jobbsider.
Og her er de samme tallene, men presentert i tabellform:
La oss gå i rekkefølge.
Gjennomgang av resultater
Både SQL og Python vises i mer enn to tredjedeler av jobbåpningene som er vurdert. Det er disse to teknologiene som gir mening å studere først.
Spark er nevnt i omtrent halvparten av de ledige stillingene.
AWS vises i omtrent 45 % av stillingsannonser. Det er en cloud computing-plattform produsert av Amazon; den har den største markedsandelen blant alle skyplattformer.
Deretter kommer Java og Hadoop – litt mer enn 40 % for broren deres.
Det er som å sykle i en tidsmaskin
Så ser vi Hive, Scala, Kafka og NoSQL – hver av disse teknologiene er nevnt i en fjerdedel av de innsendte ledige stillingene. Apache Hive er en datavarehusprogramvare som "gjør det enkelt å lese, skrive og administrere store datasett som ligger i distribuerte butikker ved hjelp av SQL."
Sammenligning med vilkår i ledige stillinger for dataforskere
Her er tretti teknologibegreper som er mest vanlige blant datavitenskapsarbeidsgivere. Jeg skaffet denne listen på samme måte som beskrevet ovenfor for datateknikk.
Omtaler av teknologi i ledige stillinger for stillingen som dataforsker i 2020
Hvis vi snakker om det totale antallet, sammenlignet med tidligere vurdert rekruttering, var det 28 % flere ledige stillinger (12 013 mot 9396 XNUMX). La oss se hvilke teknologier som er mindre vanlige i ledige stillinger for dataforskere enn for dataingeniører.
Mer populær innen datateknikk
Grafen nedenfor viser søkeord med en gjennomsnittlig forskjell på større enn 10 % eller mindre enn -10 %.
De største forskjellene i søkeordfrekvens mellom dataingeniør og dataforsker
AWS viser den mest signifikante økningen: i datateknikk vises det 25 % mer regelmessig enn i datavitenskap (henholdsvis ca. 45 % og 20 % av det totale antallet ledige stillinger). Forskjellen er merkbar!
Her er de samme dataene i en litt annen presentasjon – i grafen ligger resultatene for samme søkeord i de ledige stillingene til stillingen som dataingeniør og dataforsker side om side.
De største forskjellene i søkeordfrekvens mellom dataingeniør og dataforsker
Det nest største hoppet jeg noterte var i Spark - en dataingeniør må ofte jobbe med big data.
Mindre populær innen datateknikk
La oss nå se hvilke teknologier som er mindre populære i ledige stillinger innen dataingeniør.
Den kraftigste nedgangen sammenlignet med datavitenskapssektoren skjedde i
Etterspurt innen både datateknikk og datavitenskap
Det skal bemerkes at åtte av de ti første posisjonene i begge settene er de samme. SQL, Python, Spark, AWS, Java, Hadoop, Hive og Scala kom på topp ti for både datateknikk og datavitenskap. I grafen nedenfor kan du se de femten mest populære teknologiene blant dataingeniørarbeidsgivere, og ved siden av dem er deres stillingsprosent for dataforskere.
anbefalinger
Hvis du ønsker å komme inn i datateknikk, vil jeg råde deg til å mestre følgende teknologier - jeg lister dem opp i omtrentlig prioritet.
Lær SQL. Jeg lener meg til PostgreSQL fordi det er åpen kildekode, veldig populært i samfunnet og er i en vekstfase. Du kan lære hvordan du bruker språket fra boken My Memorable SQL - pilotversjonen er tilgjengelig
Mestre Python, selv om det ikke er på det mest hardcore nivået. My Memorable Python er designet spesielt for nybegynnere. Den kan kjøpes på
Når du er kjent med Python, gå videre til pandas, et Python-bibliotek som brukes til datarensing og behandling. Hvis du har som mål å jobbe i et selskap som krever evnen til å skrive i Python (og dette er flertallet av dem), kan du være sikker på at kunnskap om pandaer vil bli antatt som standard. Jeg holder for tiden på å fullføre en introduksjonsguide for å jobbe med pandaer – du kan
Mester AWS. Hvis du ønsker å bli dataingeniør, kan du ikke klare deg uten en skyplattform i oppbevaringen, og AWS er den mest populære av dem. Kursene hjalp meg mye
Hvis du allerede har fullført hele denne listen og ønsker å vokse ytterligere i øynene til arbeidsgivere som dataingeniør, foreslår jeg at du legger til Apache Spark for å jobbe med big data. Selv om forskningen min på ledige stillinger for dataforskere viste en nedgang i interesse, dukker det fortsatt opp blant dataingeniører i nesten annenhver ledig stilling.
Endelig
Jeg håper du fant denne oversikten over de mest etterspurte teknologiene for dataingeniører nyttig. Hvis du lurer på hvordan det går med analytikerjobber, les
Kilde: www.habr.com