De mest efterspurgte færdigheder i dataingeniørfaget

Ifølge statistik 2019, er dataingeniør i øjeblikket et erhverv, hvis efterspørgsel vokser hurtigere end nogen anden. En dataingeniør spiller en kritisk rolle i en organisation - at skabe og vedligeholde pipelines og databaser, der bruges til at behandle, transformere og lagre data. Hvilke færdigheder har repræsentanter for dette erhverv først og fremmest brug for? Er listen anderledes end hvad der kræves af dataforskere? Du vil lære om alt dette fra min artikel.

Jeg analyserede ledige stillinger til stillingen som dataingeniør, som de er i januar 2020 for at forstå, hvilke teknologiske færdigheder der er mest populære. Derefter sammenlignede jeg resultaterne med statistikker over ledige stillinger til datascientist-stillingen – og der kom nogle interessante forskelle frem.

Uden meget indledning er her de ti bedste teknologier, der oftest nævnes i jobopslag:

De mest efterspurgte færdigheder i dataingeniørfaget

Omtale af teknologier i ledige stillinger til stillingen som dataingeniør i 2020

Lad os finde ud af det.

Ansvar for en dataingeniør

I dag er det arbejde, som dataingeniører udfører, af stor betydning for organisationer – det er de personer, der er ansvarlige for at opbevare information og bringe den i en sådan form, at andre medarbejdere kan arbejde med dem. Dataingeniører bygger pipelines til at streame eller batch data fra flere kilder. Rørledninger udfører derefter ekstraktions-, transformations- og indlæsningsoperationer (med andre ord ETL-processer), hvilket gør dataene mere egnede til videre brug. Herefter sendes dataene til analytikere og dataforskere til en dybere bearbejdning. Endelig afslutter dataene sin rejse i dashboards, rapporter og maskinlæringsmodeller.

Jeg ledte efter information, der ville give mig mulighed for at drage en konklusion om, hvilke teknologier der er mest efterspurgt i en dataingeniørs arbejde i øjeblikket.

metoder

Jeg indsamlede oplysninger fra tre jobsøgningssider − simpelthen ansat, Ja и Monster og så på, hvilke søgeord der stødte på i forbindelse med "dataingeniør" i teksterne til ledige stillinger rettet mod indbyggere i USA. Til denne opgave brugte jeg to Python-biblioteker − Anmodninger и Smuk suppe. Blandt søgeordene inkluderede jeg både dem, der var med på den tidligere liste til at analysere ledige stillinger til stillingen som data scientist, og dem, som jeg manuelt valgte, mens jeg læste jobtilbud til dataingeniører. LinkedIn var ikke med på listen over kilder, da jeg blev forbudt der efter mit sidste forsøg på at indsamle data.

For hvert søgeord har jeg beregnet procentdelen af ​​hits ud fra det samlede antal tekster på hver side separat, og derefter beregnet gennemsnittet for de tre kilder.

Fund

Nedenfor er de tredive tekniske datatekniske termer med de højeste scorer på tværs af alle tre jobsites.

De mest efterspurgte færdigheder i dataingeniørfaget

Og her er de samme tal, men præsenteret i tabelform:

De mest efterspurgte færdigheder i dataingeniørfaget

Lad os gå i rækkefølge.

Gennemgang af resultater

Både SQL og Python optræder i mere end to tredjedele af de gennemgåede jobåbninger. Det er disse to teknologier, der giver mening at studere først. Python er et meget populært programmeringssprog, der bruges til at arbejde med data, oprette hjemmesider og skrive scripts. SQL står for Structured Query Language; det involverer en standard implementeret af en gruppe sprog og bruges til at hente data fra relationelle databaser. Den dukkede op for længe siden og har vist sig at være meget modstandsdygtig.

Spark er nævnt i omkring halvdelen af ​​de ledige stillinger. Apache Spark er en "unified big data analytics engine med indbyggede moduler til streaming, SQL, machine learning og grafbehandling." Det er især populært blandt dem, der arbejder med store databaser.

AWS optræder i cirka 45 % af stillingsopslagene. Det er en cloud computing-platform fremstillet af Amazon; det har den største markedsandel blandt alle cloud-platforme.
Dernæst kommer Java og Hadoop - lidt mere end 40% for deres bror. Java er et udbredt, kamptestet sprog, der 2019 Stack Overflow Developer Survey blev tildelt en tiendeplads blandt de sprog, der forårsager rædsel blandt programmører. I modsætning hertil var Python det næstmest elskede sprog. Java-sproget drives af Oracle, og alt hvad du behøver at vide om det kan forstås fra dette skærmbillede af den officielle side fra januar 2020.

De mest efterspurgte færdigheder i dataingeniørfaget

Det er som at køre i en tidsmaskine
Apache Hadoop bruger MapReduce-programmeringsmodellen med serverklynger til big data. Nu bliver denne model i stigende grad opgivet.

Så ser vi Hive, Scala, Kafka og NoSQL – hver af disse teknologier er nævnt i en fjerdedel af de indsendte ledige stillinger. Apache Hive er en datavarehussoftware, der "gør det nemt at læse, skrive og administrere store datasæt, der findes i distribuerede butikker ved hjælp af SQL." Scala – et programmeringssprog, der bruges aktivt, når man arbejder med big data. Specielt blev Spark skabt i Scala. I den allerede nævnte rækkefølge af frygtede sprog ligger Scala på en ellevteplads. Apache Kafka – en distribueret platform til behandling af streaming-beskeder. Meget populær som et middel til at streame data.

NoSQL databaser kontraster sig med SQL. De adskiller sig ved, at de er ikke-relationelle, ustrukturerede og horisontalt skalerbare. NoSQL har vundet en vis popularitet, men dillet efter tilgangen, selv til det punkt, hvor profetierne vil erstatte SQL som det dominerende lagringsparadigme, ser ud til at være forbi.

Sammenligning med vilkår i ledige stillinger for dataforskere

Her er tredive teknologibegreber, der er mest almindelige blandt datavidenskabelige arbejdsgivere. Jeg fik denne liste på samme måde som beskrevet ovenfor for datateknik.

De mest efterspurgte færdigheder i dataingeniørfaget

Omtaler af teknologi i ledige stillinger til stillingen som dataforsker i 2020

Taler vi om det samlede antal, sammenlignet med den tidligere overvejede rekruttering, var der 28 % flere ledige stillinger (12 mod 013). Lad os se, hvilke teknologier der er mindre almindelige i ledige stillinger for dataforskere end for dataingeniører.

Mere populær inden for datateknik

Grafen nedenfor viser søgeord med en gennemsnitlig forskel på mere end 10 % eller mindre end -10 %.

De mest efterspurgte færdigheder i dataingeniørfaget

De største forskelle i søgeordsfrekvens mellem dataingeniør og dataforsker

AWS viser den mest markante stigning: inden for datateknik optræder det 25 % mere regelmæssigt end i datavidenskab (henholdsvis ca. 45 % og 20 % af det samlede antal ledige stillinger). Forskellen er mærkbar!

Her er de samme data i en lidt anderledes præsentation - i grafen er resultaterne for det samme søgeord i de ledige stillinger til stillingen som dataingeniør og data scientist placeret side om side.

De mest efterspurgte færdigheder i dataingeniørfaget

De største forskelle i søgeordsfrekvens mellem dataingeniør og dataforsker

Det næststørste spring, jeg bemærkede, var i Spark - en dataingeniør skal ofte arbejde med big data. Kafka også steget med 20 %, det vil sige næsten fire gange i forhold til resultatet for ledige data scientist-stillinger. Dataoverførsel er et af de vigtigste ansvarsområder for en dataingeniør. Endelig var antallet af omtaler 15 % højere inden for datateknik for Java, NoSQL, Redshift, SQL og Hadoop.

Mindre populær inden for datateknik

Lad os nu se, hvilke teknologier der er mindre populære i ledige stillinger inden for dataingeniører.
Det kraftigste fald i forhold til datavidenskabssektoren skete i R: der optrådte han i cirka 56% af de ledige stillinger, her - kun i 17%. Imponerende. R er et programmeringssprog, som foretrækkes af videnskabsmænd og statistikere, og er det ottende mest frygtede sprog i verden.

SAS findes også i ledige stillinger til stillingen som dataingeniør væsentligt sjældnere – forskellen er 14 %. SAS er et proprietært sprog designet til at arbejde med statistik og data. Interessant pointe: at dømme efter resultaterne min forskning i jobåbninger for data scientists, den har mistet meget terræn på det seneste - mere end nogen anden teknologi.

Efterspurgt inden for både datateknik og datavidenskab

Det skal bemærkes, at otte af de første ti positioner i begge sæt er de samme. SQL, Python, Spark, AWS, Java, Hadoop, Hive og Scala kom ind i top ti for både dataingeniør- og datavidenskabsindustrien. I grafen nedenfor kan du se de femten mest populære teknologier blandt dataingeniør-arbejdsgivere, og ved siden af ​​dem er deres ledige stilling for dataforskere.

De mest efterspurgte færdigheder i dataingeniørfaget

Anbefalinger

Hvis du ønsker at komme ind i datateknik, vil jeg råde dig til at mestre følgende teknologier - jeg lister dem op i en omtrentlig prioritet.

Lær SQL. Jeg hælder til PostgreSQL, fordi det er open source, meget populært i fællesskabet og er i en vækstfase. Du kan lære at bruge sproget fra bogen My Memorable SQL - dens pilotversion er tilgængelig her.

Master Python, selvom det ikke er på det mest hardcore niveau. My Memorable Python er designet specielt til begyndere. Den kan købes på Amazon, elektronisk eller fysisk kopi, efter eget valg, eller download i pdf- eller epub-format på dette websted.

Når du er fortrolig med Python, skal du gå videre til pandas, et Python-bibliotek, der bruges til datarensning og -behandling. Hvis du sigter mod at arbejde i en virksomhed, der kræver evnen til at skrive i Python (og dette er størstedelen af ​​dem), kan du være sikker på, at kendskab til pandaer vil blive antaget som standard. Jeg er i øjeblikket ved at afslutte en introduktionsvejledning til at arbejde med pandaer – det kan du abonnerefor ikke at gå glip af udgivelsesøjeblikket.

Mester AWS. Hvis du vil blive dataingeniør, kan du ikke undvære en cloud-platform, og AWS er ​​den mest populære af dem. Kurserne hjalp mig meget Linux Academyda jeg studerede datateknik på Google Cloud, jeg tror, ​​at de også vil have gode materialer på AWS.

Hvis du allerede har fuldført hele denne liste og ønsker at vokse yderligere i arbejdsgivernes øjne som dataingeniør, foreslår jeg at tilføje Apache Spark til at arbejde med big data. Selvom min forskning om ledige stillinger i dataforskere viste et fald i interessen, optræder det blandt dataingeniører stadig i næsten hver anden ledig stilling.

Endelig

Jeg håber, at du fandt denne oversigt over de mest efterspurgte teknologier for dataingeniører nyttig. Hvis du undrer dig over, hvordan det går med analytikerjob, så læs min anden artikel. Glad teknik!

Kilde: www.habr.com

Tilføj en kommentar