De mest efterfrågade färdigheterna inom dataingenjörsyrket

Enligt statistik 2019, är dataingenjör för närvarande ett yrke vars efterfrågan växer snabbare än något annat. En dataingenjör spelar en avgörande roll i en organisation - att skapa och underhålla pipelines och databaser som används för att bearbeta, transformera och lagra data. Vilka färdigheter behöver företrädare för detta yrke först av allt? Skiljer sig listan från vad som krävs av datavetare? Du kommer att lära dig om allt detta från min artikel.

Jag analyserade lediga tjänster för tjänsten som dataingenjör som de är i januari 2020 för att förstå vilka teknikkunskaper som är mest populära. Sedan jämförde jag resultaten med statistik över lediga tjänster för datavetartjänsten – och några intressanta skillnader framkom.

Utan mycket ingress, här är de tio bästa teknikerna som nämns oftast i jobbannonser:

De mest efterfrågade färdigheterna inom dataingenjörsyrket

Omnämnande av teknologier i lediga tjänster för tjänsten som dataingenjör 2020

Låt oss räkna ut det.

En dataingenjörs ansvar

Idag är det arbete som dataingenjörer gör av stor betydelse för organisationer – det är de som ansvarar för att lagra information och föra den i en sådan form att andra medarbetare kan arbeta med den. Dataingenjörer bygger pipelines för att strömma eller batcha data från flera källor. Rörledningar utför sedan extraktions-, transformations- och laddningsoperationer (med andra ord ETL-processer), vilket gör data mer lämpade för vidare användning. Därefter lämnas data till analytiker och datavetare för djupare bearbetning. Slutligen avslutar data sin resa i instrumentpaneler, rapporter och maskininlärningsmodeller.

Jag letade efter information som skulle göra det möjligt för mig att dra en slutsats om vilka teknologier som är mest efterfrågade i en dataingenjörs arbete för tillfället.

metoder

Jag samlade in information från tre jobbsöksajter − SimplyHired, Verkligen и Monster och tittade på vilka nyckelord som kom över i samband med "dataingenjör" i texterna för lediga tjänster riktade till invånare i USA. För denna uppgift använde jag två Python-bibliotek − begäranden и Vacker soppa. Bland nyckelorden inkluderade jag både de som fanns med i den tidigare listan för att analysera lediga tjänster för tjänsten som datavetare, och de som jag valt manuellt när jag läste jobberbjudanden för dataingenjörer. LinkedIn fanns inte med i källlistan, eftersom jag blev bannlyst där efter mitt senaste försök att samla in data.

För varje sökord beräknade jag andelen träffar från det totala antalet texter på varje sajt separat, och beräknade sedan genomsnittet för de tre källorna.

Resultat

Nedan är de trettio tekniska datatekniska termerna med de högsta poängen på alla tre arbetsplatserna.

De mest efterfrågade färdigheterna inom dataingenjörsyrket

Och här är samma siffror, men presenterade i tabellform:

De mest efterfrågade färdigheterna inom dataingenjörsyrket

Låt oss gå i ordning.

Genomgång av resultat

Både SQL och Python förekommer i mer än två tredjedelar av de jobb som granskas. Det är dessa två tekniker som är vettiga att studera först. Python är ett mycket populärt programmeringsspråk som används för att arbeta med data, skapa webbplatser och skriva skript. SQL står för Structured Query Language; det involverar en standard implementerad av en grupp språk och används för att hämta data från relationsdatabaser. Den dök upp för länge sedan och har visat sig vara mycket motståndskraftig.

Spark nämns i ungefär hälften av de lediga tjänsterna. Apache Spark är en "unified big data analytics engine med inbyggda moduler för streaming, SQL, maskininlärning och grafbearbetning." Det är särskilt populärt bland dem som arbetar med stora databaser.

AWS förekommer i cirka 45 % av jobbannonserna. Det är en cloud computing-plattform tillverkad av Amazon; det har den största marknadsandelen bland alla molnplattformar.
Därefter kommer Java och Hadoop – lite mer än 40 % för sin bror. java är ett allmänt talat, stridstestat språk som 2019 Stack Overflow Developer Survey belönades med en tionde plats bland språken som orsakar skräck bland programmerare. Däremot var Python det näst mest älskade språket. Java-språket drivs av Oracle, och allt du behöver veta om det kan förstås från denna skärmdump av den officiella sidan från januari 2020.

De mest efterfrågade färdigheterna inom dataingenjörsyrket

Det är som att åka i en tidsmaskin
Apache Hadoop använder MapReduce-programmeringsmodellen med serverkluster för big data. Nu överges denna modell alltmer.

Sedan ser vi Hive, Scala, Kafka och NoSQL – var och en av dessa teknologier nämns i en fjärdedel av de lediga tjänsterna. Apache Hive är en datalagerprogramvara som "gör det enkelt att läsa, skriva och hantera stora datamängder som finns i distribuerade butiker med hjälp av SQL." Skala – ett programmeringsspråk som används aktivt när man arbetar med big data. I synnerhet skapades Spark i Scala. I den redan nämnda rankningen av fruktade språk hamnar Scala på elfte plats. Apache Kafka – en distribuerad plattform för bearbetning av strömmande meddelanden. Mycket populär som ett sätt att strömma data.

NoSQL-databaser kontrastera sig med SQL. De skiljer sig åt genom att de är icke-relationella, ostrukturerade och horisontellt skalbara. NoSQL har vunnit en viss popularitet, men vurm för tillvägagångssättet, till och med till den grad av profetior att det kommer att ersätta SQL som det dominerande lagringsparadigmet, verkar vara över.

Jämförelse med termer i lediga tjänster inom datavetare

Här är trettio tekniktermer som är vanligast bland arbetsgivare inom datavetenskap. Jag fick den här listan på samma sätt som beskrivits ovan för datateknik.

De mest efterfrågade färdigheterna inom dataingenjörsyrket

Omnämnanden av teknik i lediga tjänster för tjänsten som datavetare 2020

Om vi ​​talar om det totala antalet, jämfört med den tidigare övervägda rekryteringen, var det 28 % fler lediga platser (12 013 mot 9396 XNUMX). Låt oss se vilka tekniker som är mindre vanliga i lediga tjänster för datavetare än för dataingenjörer.

Mer populärt inom datateknik

Diagrammet nedan visar sökord med en genomsnittlig skillnad på mer än 10 % eller mindre än -10 %.

De mest efterfrågade färdigheterna inom dataingenjörsyrket

De största skillnaderna i sökordsfrekvens mellan dataingenjör och datavetare

AWS visar den mest betydande ökningen: inom datateknik förekommer det 25 % mer regelbundet än inom datavetenskap (ungefär 45 % respektive 20 % av det totala antalet lediga tjänster). Skillnaden märks!

Här är samma data i en lite annorlunda presentation – i grafen ligger resultaten för samma sökord i de lediga tjänsterna för tjänsten dataingenjör och datavetare sida vid sida.

De mest efterfrågade färdigheterna inom dataingenjörsyrket

De största skillnaderna i sökordsfrekvens mellan dataingenjör och datavetare

Det näst största hoppet jag noterade var i Spark - en dataingenjör måste ofta arbeta med big data. kafka ökade också med 20 %, det vill säga nästan fyra gånger jämfört med resultatet för lediga tjänster inom datavetare. Dataöverföring är ett av huvuduppgifterna för en dataingenjör. Slutligen var antalet omnämnanden 15 % högre inom området datateknik för Java, NoSQL, Redshift, SQL och Hadoop.

Mindre populär inom datateknik

Låt oss nu se vilka tekniker som är mindre populära i lediga dataingenjörer.
Den kraftigaste nedgången jämfört med datavetenskapssektorn skedde i R: där dök han upp i cirka 56 % av de lediga tjänsterna, här - bara i 17 %. Imponerande. R är ett programmeringsspråk som gynnas av forskare och statistiker, och är det åttonde mest fruktade språket i världen.

SAS finns också i lediga tjänster för tjänsten som dataingenjör betydligt mer sällan - skillnaden är 14%. SAS är ett egenutvecklat språk designat för att arbeta med statistik och data. Intressant poäng: att döma av resultaten min forskning om lediga jobb för datavetare, den har tappat mycket mark nyligen – mer än någon annan teknik.

Efterfrågad inom både datateknik och datavetenskap

Det bör noteras att åtta av de tio första positionerna i båda seten är desamma. SQL, Python, Spark, AWS, Java, Hadoop, Hive och Scala tog sig till topp tio för både datateknik- och datavetenskapsindustrin. I grafen nedan kan du se de femton mest populära teknikerna bland dataingenjörsarbetsgivare, och bredvid dem är deras vakansgrad för datavetare.

De mest efterfrågade färdigheterna inom dataingenjörsyrket

Rekommendationer

Om du vill komma in i datateknik skulle jag råda dig att behärska följande tekniker - jag listar dem i ungefärlig prioritetsordning.

Lär dig SQL. Jag lutar åt PostgreSQL eftersom det är öppen källkod, mycket populärt i samhället och är i en tillväxtfas. Du kan lära dig hur du använder språket från boken My Memorable SQL - dess pilotversion finns tillgänglig här.

Master Python, även om det inte är på hardcore-nivå. My Memorable Python är designad speciellt för nybörjare. Den kan köpas på amason, elektronisk eller fysisk kopia, ditt val, eller ladda ner i pdf- eller epub-format på den här webbplatsen.

När du är bekant med Python, gå vidare till pandas, ett Python-bibliotek som används för datarensning och bearbetning. Om du siktar på att arbeta i ett företag som kräver förmågan att skriva i Python (och detta är majoriteten av dem), kan du vara säker på att kunskap om pandor kommer att antas som standard. Jag håller just nu på att avsluta en introduktionsguide till att arbeta med pandor – du kan prenumereraför att inte missa släppögonblicket.

Mästare AWS. Om du vill bli dataingenjör kan du inte klara dig utan en molnplattform i arkivet, och AWS är den mest populära av dem. Kurserna hjälpte mig mycket Linux Academynär jag pluggade datateknik på Google Cloud, jag tror att de också kommer att ha bra material på AWS.

Om du redan har slutfört hela listan och vill växa ytterligare i arbetsgivarnas ögon som dataingenjör, föreslår jag att du lägger till Apache Spark för att arbeta med big data. Även om min forskning om lediga tjänster för dataforskare visade ett minskat intresse, dyker det fortfarande upp bland dataingenjörer i nästan varannan ledig tjänst.

äntligen

Jag hoppas att du tyckte att den här översikten av de mest efterfrågade teknikerna för dataingenjörer var användbar. Om du undrar hur analytikerjobbet ser ut, läs min andra artikel. Glad ingenjörskonst!

Källa: will.com

Lägg en kommentar